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Dieses Buch ist das Ergebnis vieler glücklicher Umstände. Als wir am Anfang des 
Studiums begannen, uns mit sozial- und geisteswissenschaftlichen Themen zu be- 
schäftigen, haben wir nicht kommen sehen, wie sich unsere Begeisterung für Com- 
putation damit verbinden wird. Lange Zeit gab es noch keinen etablierten Namen 
für die Verknüpfung zwischen Informatik auf der einen Seite und Sozial- und Geis- 
teswissenschaften auf der anderen. Und auch wenn die Bezeichnungen bis heute 
volatil sind, ist klar geworden: Computational Methods haben sich im Feld eta- 
bliert. Advokat:innen und Evangelist:innen haben an Begriffsverständnissen 
gearbeitet und sich mit epistemologischen Fragen beschäftigt. Wissenschafts- 
manager:innen haben Aufbauarbeit geleistet, um technische und organisatorische 
Infrastrukturen zu schaffen. Methodenentwickler:innen haben Tools und Modelle 
entwickelt, deren Brauchbarkeit für den Erkenntnisgewinn von Anwender:innen 
evaluiert werden. Digital Humanties und Computational Social Sciences sind in 
einigen Curricula von Studiengängen verankert. Aus vagen Intuitionen ist Wirk- 
lichkeit geworden. 

Wir sind dankbar für die Menschen und die Institutionen, die uns auf unserem 
Weg begleitet haben und die wir begleiten durften. An der Universität Greifswald 
hat sich nicht nur die Finanzierung für dieses Buch gefunden, sie hat Freiräume für 
unsere persönliche kreative Entwicklung geschaffen. Die Universität Münster und 
die Akademie der Wissenschaften und der Literatur Mainz haben ein Umfeld ge- 
schaffen, in dem wir das Werk gemeinsam fortführen konnten. Für die Möglichkeit 
zur Publikation danken wir dem Springer VS Verlag, namentlich Barbara Emig-Rol- 
ler und Britta Laufer. Korrekturlesend hat sich dankenswerterweise Dagmar Schie- 
renberg durch das Manuskript gearbeitet. An Emilie Hemmerling geht der Dank 
für die Kapitelbilder. Es ist nicht selbstverständlich, dass wichtige strukturelle Vo- 
raussetzungen von Personen und Einrichtungen geschaffen werden, wenn sie selbst 
kaum Berührungspunkte mit einem Thema haben. 
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Ganz besonders wichtig waren die Studierenden, die sich, ohne zu wissen, was 
sie erwartet, in verschiedenen Seminaren auf die Welt automatisierter Verfahren 
eingelassen haben. In der Regel ohne informatischen Hintergrund sind sie mit uns 
bei guter Laune an die Grenzen des Verständnisses und darüber hinaus gegangen. 
Einige dieser Studierenden sind direkt durch Recherchen, Tests und Korrekturen 
an diesem Buch beteiligt, ihnen gilt besonderer Dank: Silja Klein, Julia Alili, Pau- 
line Haß, Isabel Kleefeld, Vicky Wagemann und Henrieke Kotthoff. 

Viele Kapitel des Buches sind als kurze Tutorials entstanden — für die daraus 
resultierende Brüchigkeit des Textes übernehmen wir gern die Verantwortung. Die 
Idee bestand stets darin, Türen zu komplexen Themengebieten zu öffnen, indem 
man innerhalb begrenzter verfügbarer Zeit erste Erfahrungen sammelt und dabei 
gefahrlos stolpern kann. Wir hoffen, einige unserer Erfahrungen nun weitergeben 
zu können und wünschen viel Spaß bei den wohl wichtigsten Tätigkeiten im Be- 
reich der Computational Methods: dem Fehlermachen, Fehlerfinden und Feh- 
lerbeheben. 


Münster & München, Deutschland Jakob Jünger 
Frühling 2022 Chantal Gärtner 
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4 1 Einleitung und Überblick 


Zusammenfassung 


Dieses Kapitel führt Sie in die Welt der Computational Methods ein. Sie erfah- 
ren, an wen sich das Buch richtet, was unter Computational Methods verstanden 
wird und wofür diese in der Wissenschaft eingesetzt werden. Zudem lernen Sie, 
welche grundlegenden Tools für die Arbeit mit diesen Methoden benö- 
tigt werden. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


Computational Methods - Computational Social Science - Digital Humanities - 
Kommandozeile - Texteditor 


Der Bereich Computational Methods hat für die Sozial- und Geisteswissenschaften 
zunehmend an Bedeutung gewonnen. Das kann unter anderem darauf zurückge- 
führt werden, dass Kulturgüter wie historische Bücher, Daten von Organisationen 
oder auch die Kommunikation in journalistischen Medien in den letzten Jahrzehn- 
ten digital verfügbar wurden. Nicht nur das: Viele soziale, auch interpersonale, 
Prozesse laufen mittlerweile zum Beispiel auf Online-Plattformen direkt in digita- 
len Umgebungen ab. Computational Methods helfen dabei, umfangreiche und 
heterogene Datenbestände zusammenzustellen und automatisiert auszuwerten. 
Daraus ergeben sich auch weitere wissenschaftliche Fragestellungen und Herange- 
hensweisen, indem beispielsweise menschliches Verhalten mit Simulationsmodel- 
len nachgestellt wird, um aus dem Vergleich mit der sozialen Wirklichkeit grund- 
legende Mechanismen herauszuarbeiten. Besonders reizvoll ist dabei, dass 
gleichzeitig eine Vogelperspektive und eine Froschperspektive eingenommen wer- 
den können. So kann beispielsweise mit Netzwerkanalysen die Struktur hinter dem 
Zusammenspiel einer Vielzahl an Akteuren! visualisiert werden, ohne dass die ein- 
zelnen Akteure aus dem Blick geraten müssen. 

Anzeichen für die zunehmende Bedeutung von Computational Methods sind 
auch die Gründung von spezialisierten Fachzeitschriften, Forschungseinrichtungen 


!Sofern wir davon ausgehen, dass es sich um komplexe nichtmenschliche Akteure handelt 
(korporative oder kollektive Akteure sowie technische Rollen), gendern wir in diesem Buch 
Begriffe wie Akteur oder Anbieter nicht, auch um eine Anthropomorphisierung zu vermeiden. 
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und Lehrstühlen sowie Fachvertretungen. In der Kommunikationswissenschaft 
wird dies beispielsweise an der Gründung einer Computational Methods Division 
innerhalb der internationalen Fachvertretung International Communication Asso- 
ciation (ICA) deutlich. Ausgangspunkt war die Idee, dass Computational Methods 
eine wichtige Rolle für die Weiterentwicklung kommunikationswissenschaftlicher 
Forschung spielen werden: „We believe that computational methods will be at the 
forefront of progress in the field in the coming decades“ (ICA CM 2017). Damit 
aber Computational Methods im Rahmen substanzieller Forschung eingesetzt wer- 
den können, braucht es Wissenschaftler:innen, die mit diesen Methoden umge- 
hen können. 

Das vorliegende Buch soll (bisherige) technische Laien in die Lage versetzen, 
selbstständig automatisierte Verfahren der Datenerhebung und Datenauswertung 
anzuwenden. Es ist begleitend zu Lehrveranstaltungen entstanden, in denen für 
Studierende der Sozial- und Geisteswissenschaften der Weg in eine zunächst 
fremde, dann aber sehr spannende Welt eröffnet wird. Dabei geht es darum, diese 
digitale Welt nicht nur besser zu verstehen, sondern auch mitgestalten zu können. 

Im ersten Teil des Buches wird grundlegendes Wissen über Datenquellen, Da- 
tenformate und Verfahren zur Aufbereitung von Daten vermittelt. Im zweiten Teil 
finden sich kurze Einführungen in die zwei einschlägigen Programmiersprachen R 
und Python sowie in Konzepte zum Verwalten größerer Programmierprojekte. Im 
dritten Teil werden spezielle Erhebungs- und Auswertungsverfahren vorgestellt, 
beispielsweise Webscraping, Textanalyse und Klassifikationsverfahren. Innerhalb 
der Kapitel wird neben einem Überblick über die Verfahren jeweils eine Anleitung 
für ein ausgewähltes Beispiel gegeben. Die Beispiele beziehen sich häufig auf 
kommunikationswissenschaftlich relevante Bereiche, verbunden mit der Hoff- 
nung, dass die Konzepte und Anleitungen anschlussfähig für sehr unterschiedliche 
Felder sind. Denn die Kommunikationswissenschaft ist eine integrative Disziplin, 
in der sowohl sozial- als auch geisteswissenschaftliches Denken zusammenkommt. 

Die vorliegende Einführung gibt einen ersten Einblick in die vorgestellten Be- 
reiche, kann aber nicht die vielen, sehr guten Einführungswerke in speziali- 
sierte Verfahren ersetzen. Deshalb sind am Ende jedes Kapitels weiterführende 
Literaturhinweise und themenspezifische Einführungswerke zusammengestellt. 
Daneben finden sich nach jedem Kapitel Übungsfragen, mit denen theoretisches 
und praktisches Wissen überprüft werden kann. Zusätzlich zu den Inhalten in die- 
sem Buch werden Daten und Skripte in einem Repositorium als Begleitmaterialien 
zur Verfügung gestellt. Wie diese beim Lernen von Computational Methods helfen 
können, wird in Abschn. 1.2.4 beschrieben. 
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1.1 Was sind Computational Methods? 


Ausgehend von der Bezeichnung „Computational Methods“ wären darunter alle 
Verfahren zu verstehen, bei denen „Computation“ zur wissenschaftlichen Ana- 
lyse eingesetzt wird. Versteht man unter dem Begriff „Computation“ in direkter 
Übersetzung allerdings ganz allgemein jede Form des Rechnens, dann umfasst 
das auch die quantitative Auswertung von Befragungen und Texten und jede Art 
von Statistik, im einfachsten Fall sogar die Bildung von Summen und Mittelwer- 
ten. Auch eine Eingrenzung auf maschinelles Rechnen hilft hier nicht weiter, 
denn Maschinen sind im Verständnis der Informatik nicht zwangsläufig elektro- 
nische oder mechanische Geräte. Ein Beispiel für eine rein konzeptionelle Ma- 
schine ist die Turing-Maschine, die ein Rechenmodell bzw. die mathematische 
Version eines Algorithmus darstellt. Zudem werden auch in der klassischen sta- 
tistischen Analyse Computer eingesetzt. Im Film Hidden Figures (2016) findet 
sich ein anschauliches Beispiel dafür, dass unter Computern auch Menschen mit 
einer Begabung für das Rechnen verstanden werden können. Die „Computatio- 
nal Unit“, in der Berechnungen für die Flugbahnen der Apollo-Raumfahrtmis- 
sion durchgeführt werden, besteht zunächst ausschließlich aus Frauen. Erst am 
Ende des Films wird dargestellt, wie diese Aufgabe von elektronischen Maschi- 
nen übernommen wird. 

Es ist aber gerade dieser Aspekt, das Hinausgehen über klassische sozial- und 
geisteswissenschaftliche Methoden, der als Besonderheit von Computational Me- 
thods angesehen wird (siehe auch van Atteveldt und Peng 2018, S. 82). Einigkeit 
besteht in den Sozialwissenschaften zumindest dahingehend, dass es sich eben 
nicht um klassische Methoden handelt, sondern um Verfahren aus der Informatik: 
„Computational social sciences is a research discipline at the interface between 
computer science and the traditional social sciences. This interdisciplinary and 
emerging scientific field uses computationally methods to analyze and model so- 
cial phenomena, social structures, and collective behavior“ (Amaral 2017; siehe 
auch Cioffi-Revilla 2010, S. 259). Doch auch hier wird schnell klar, dass es sich 
nicht zwangsläufig um neue Entwicklungen handelt. Im Gegenteil: Es lässt sich 
mittlerweile bereits eine historische Perspektive auf diesen Forschungsbereich ein- 
nehmen (Cioffi-Revilla 2017, S. 18 ff.). Bereits in den 1960er-Jahren finden sich 
Publikationen, in denen diskutiert wird, inwiefern computerbasierte Methoden für 
sozialwissenschaftliche Fragestellungen nutzbar sind (Coleman 1964). 

Im Zusammenhang mit Computational Methods haben sich in verschiedenen 
Disziplinen Bezeichnungen herausgebildet, mit denen die Verbindung zu compu- 
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terbasierten Methoden angezeigt wird (Tab. 1.1; siehe auch Welker 2019). Ganz 
allgemein wird in den Sozialwissenschaften von Computational Social Science 
(CSS) und in den Geisteswissenschaften von Digital Humanities (DH) gespro- 
chen?. Daneben finden sich fachspezifische Bezeichnungen wie Digital Sociology, 
Computational Communication Science, Digital History oder Computational Lin- 
guistics. Die englischen Bezeichnungen machen deutlich, dass es sich um globale 
Entwicklungen handelt. 


Tab. 1.1 Forschungsrichtungen, in denen Computational Methods eingesetzt werden 


Begriff 
Computational 
Social Science 


(CSS) 


Digital Sociology 


Computational 
Communication 
Science (CCS) 


Digital Humanities 
(DH) 


Definition (Beispiel) 

„Ihe new field of Computational Social Science can be defined as 
the interdisciplinary investigation of the social universe on many 
scales, ranging from individual actors to the largest groupings, 
through the medium of computation“ (Cioffi-Revilla 2017, S. 2). 
„Ihe ‚digital‘ in digital sociology may denote at least three different 
things: it may refer to (1) the topics of social enquiry; (2) the 
instruments and methods of social research; (3) the platforms for 
engaging with the audiences and publics of sociology. Depending on 
which of these aspects of the ‚digital‘ we consider, we arrive at a 
very different understanding of what digital sociology is“ (Marres 
2017, S. 24). 

„Computational communication science studies generally involve: 
(1) large and complex data sets; (2) consisting of digital traces and 
other ,naturally occurring‘ data; (3) requiring algorithmic solutions 
to analyze; and (4) allowing the study of human communication by 
applying and testing communication theory“ (van Atteveldt und 
Peng 2018, S. 82; in Anlehnung an Shah et al. 2015). 

„„Digital Humanities‘ covers a great number of activities in 
research, teaching, and cultural production, using computers and 
web-based platforms as new technologies for both scholars and the 
general public. New modes of digital collaboration and sharing are 
re-defining the lines between academic and cultural production“ 
(DHI 2020). 

„[DJie Summe aller Versuche, die Informationstechniken auf den 
Gegenstandsbereich der Geisteswissenschaften anzuwenden“ 
(Jannidis et al. 2017, S. 13). 


(Fortsetzung) 


*Zur Bedeutung des Begriffs Digital Humanities gibt es eine umfangreiche fachliche De- 
batte, siehe die Beiträge in Terras et al. (2013). 
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Tab. 1.1 (Fortsetzung) 


Begriff 
Humanities 
Computing 


Digital History 


Computational 
Linguistics 


Digital Methods 


Webometrics 


Data Mining 


Knowledge 
Discovery in 
Databases (KDD) 
Data Science 


Definition (Beispiel) 

„Humanities computing is precisely the automation of every 
possible analysis of human expression (therefore, it is exquisitely a 
, humanistic‘ activity), in the widest sense of the word, from music 
to the theater, from design and painting to phonetics, but whose 
nucleus remains the discourse of written texts“ (Busa 2004, S. xvi). 
„[Dligital history is the process by which historians are able to use 
computers to do history in ways impossible without the computer“ 
(Burton 2005, S. 207). 

„Ihe most important weapon for building the digital future we want 
is to take an active hand in creating digital history in the present“ 
(Cohen und Rosenzweig 2006). 

„Computational linguistics is the scientific and engineering 
discipline concerned with understanding written and spoken 
language from a computational perspective, and building artifacts 
that usefully process and produce language, either in bulk or in a 
dialogue setting“ (Schubert 2020). 

„[T]he repurposing of methods in media for social and cultural 
research“ (Rogers 2010, S. 243). 

„Webometrics [...] covers research of all network-based 
communication using informetric or other quantitative measures“ 
(Almind und Ingwersen 1997, S. 404). 

„Ihe study of the quantitative aspects of the construction and use of 
information resources, structures and technologies on the Web 
drawing on bibliometric and informetric approaches“ (Björneborn 
2004, S. 12; siehe auch Björneborn und Ingwersen 2004). 

„[T]he study of web-based content with primarily quantitative 
methods for social science research goals using techniques that are 
not specific to one field of study“ (Thelwall 2009, S. 6). 

„Data mining is the application of specific algorithms for extracting 
patterns from data“ (Fayyad et al. 1996, S. 39). 

„KDD is the nontrivial process of identifying valid, novel, 
potentially useful, and ultimately understandable patterns in data“ 
(Fayyad et al. 1996, S. 40). 

„[DJata science is a new interdisciplinary field that synthesizes and 
builds on statistics, informatics, computing, communication, 
management, and sociology to study data and its environments 
(including domains and other contextual aspects, such as 
organizational and social aspects) in order to transform data to 
insights and decisions by following a data-to-knowledge-to-wisdom 
thinking and methodology“ (Cao 2017, S. 8). 


Quelle: eigene Darstellung 
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Weitere Bezeichnungen stammen stärker aus der Tradition der Informatik und 
fokussieren spezifische Aspekte der Datenerhebung, wie etwa die Begriffe Data 
Mining oder Knowledge Discovery in Databases. Diese Begriffe findet man auch 
außerhalb der und an der Schnittstelle zur Wissenschaft. Als Bezeichnung für in 
der Wirtschaft verbreitete Tätigkeitsfelder haben sich die Begriffe Data Engineer 
und Data Scientist herausgebildet, inklusive entsprechender Studiengänge. Wäh- 
rend erstere vor allem mit der Entwicklung von Software für die Datenaufbereitung 
beschäftigt sind, widmen sich letztere der Analyse. Hinzu kommen in größeren 
Organisationen Data Architects, die vor allem die Infrastruktur und Koordination 
der Teilaufgaben im Blick haben. 

Dass sich in diesem Bereich verschiedene Traditionen verbinden, erkennt man 
auch daran, dass je nach Perspektive unterschiedliche Terminologien für die glei- 
chen Sachverhalte verwendet werden.’ Wo in der klassischen Statistik von unabhän- 
gigen und abhängigen Variablen die Rede ist, sprechen Data Scientists von Features 
und Labels. Beide Varianten umfassen die Merkmalsausprägungen der untersuchten 
Fälle, etwa das Erstelldatum von Kommentaren auf einer Webseite. Dabei geht es 
jedoch um mehr als nur um alternative Bezeichnungen, häufig unterscheiden sich 
auch die Zielstellungen. Während aus anwendungsorientierter Sicht vor allem die 
optimale Vorhersage von Verhalten relevant ist, suchen Wissenschaftler:innen nach 
Erklärungen. Beide Perspektiven modellieren die Wirklichkeit mit statistischen Mit- 
teln. Erstere streben dabei allerdings eine möglichst hohe Modellgüte an, während 
für letztere die einzelnen Parameter der Modelle wichtiger sind.* Auch innerhalb der 
Wissenschaft kommen verschiedene erkenntnistheoretische Grundpositionen zu- 
sammen. Der Begriff Digital Methods kommt beispielsweise aus einer stärker inter- 
pretativen oder sogar ethnografischen Perspektive, wenn darunter „the repurposing 
of methods in media for social and cultural research“ (Rogers 2010, S. 243) verstan- 
den wird. Damit ist etwa gemeint, dass für die wissenschaftliche Analyse von On- 
line-Kommunikation die Mittel der Online-Kommunikation verwendet werden soll- 
ten. So würde man Suchmaschinen untersuchen, indem man Suchmaschinen 
verwendet. Hinzu kommt vor allem im Bereich der Digital Humanities noch eine 
ganz praktische Perspektive, wenn darunter auch künstlerisches oder literarisches 


3Zur unterschiedlichen Terminologie siehe die Einführung von Attewell und Monaghan 
(2015, S. 8 ff.). 


*Die unterschiedlichen Perspektiven lassen sich gut am Umgang mit Regressionsmodellen 
verdeutlichen. Während Data Scientists den Determinationskoeffizienten R* optimieren und 
die ohnehin unübersichtliche Anzahl an Variablen bzw. Einflussfaktoren hintenanstellen, 
sind Sozial- und Geisteswissenschaftler:innen vorrangig an den Beta-Koeffizienten der ein- 
zelnen Variablen interessiert und akzeptieren dabei eine geringe Erklärungskraft des Ge- 
samtmodells. 
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Schaffen verstanden wird, bei dem computergestützt kulturelle Artefakte nicht nur 
beschrieben oder analysiert, sondern selbst produziert werden. 

Die Kombinationen mit dem Wort ,,digital“ verweisen bereits auf den Gegen- 
standsbereich digitaler Kommunikation, der allerdings sehr umfassend und damit 
schwer fassbar ist.” Etwas engere Fokussierungen nehmen die Begriffe Internet 
Research oder noch enger Web Science und Web Mining vor.° Noch spezifischer 
sind Felder wie Webometrics, in denen in der Tradition bibliografischer Zitations- 
analysen unter anderem netzwerkanalytische Strukturen zwischen Webseiten im 
Vordergrund stehen. In der vorliegenden Einführung wird der nicht auf eine Diszi- 
plin festgelegte Begriff Computational Methods verwendet, da die Methoden im 
Vordergrund stehen sollen. Diese Methoden können in kreativer Weise für sehr 
unterschiedliche Fragestellungen fruchtbar gemacht werden. 

Wenn auch die inhaltliche Begriffsbestimmung nicht trivial ist, so sind Computa- 
tional Methods faszinierend. Ein Teil der Faszination ergibt sich vermutlich daraus, 
dass Computer (als technische Maschinen) dabei Aufgaben übernehmen, die im ers- 
ten Moment menschliche Fähigkeiten voraussetzen. Deutlich wird dies im Bereich 
der Sprach- und Bilderkennung: Suchmaschinen können Bilder danach sortieren, ob 
sie Katzen oder Menschen enthalten. Smartphones reagieren auf die verbale Anwei- 
sung, einen Timer zu stellen. Und in menschlichen Gesichtern wird versucht, auto- 
matisch Emotionen zu erkennen. In diesen Beispielen werden maschinell komplexe, 
aber sehr spezifische Aufgaben gelöst, die man herkömmlich nur Menschen zutraut. 
Deshalb wird auch von künstlicher Intelligenz gesprochen, ohne dass dabei tatsäch- 
lich Intelligenz im Spiel wäre (Russell und Norvig 2012, S. 22). 

Interessant für die wissenschaftliche Analyse werden entsprechende Verfahren un- 
ter anderem dadurch, dass sie automatisiert auf einer großen Datenmenge durchgeführt 
werden können. Hierin liegt ein entscheidender Vorteil gegenüber menschlichen Ana- 
lysen, wenn eine kleine Stichprobe für eine Fragestellung nicht ausreicht. Zudem ver- 
sprechen Computational Methods eine hohe Reliabilität — das heißt, sie führen zumin- 
dest dem ersten Anschein nach zu den immer gleichen Ergebnissen.’ 


>Für kritische Anmerkungen zur Verwendung des Digitalisierungsbegriffs siehe Jünger und 
Schade (2018). 

é Das Internet und das Web unterscheiden sich sowohl in technischer als auch in organisato- 
rischer Hinsicht (Beck 2006, S. 30), die Begriffe sollten deshalb nicht verwechselt werden. 
"Tatsächlich ist Reliabilität im Sinne von Reproduzierbarkeit häufig nicht gegeben, da sich 
die untersuchten Gegenstände und die Methoden schnell wandeln (Jünger 2018, S. 122). 
Selbst wenn im Sinne von Open Science die Quelltexte von Programmen veröffentlicht wer- 
den, lassen sich Skripte nach einigen Jahren aufgrund veränderter technischer (z. B. Be- 
triebssysteme) und organisatorischer (z. B. Plattformen) Rahmenbedingungen häufig nicht 
mehr ausführen. 
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Theoretisch besteht die Besonderheit von Automatisierung darin, dass mit ei- 
nem vergleichsweise hohen Anfangsaufwand ein System aufgesetzt wird, das an- 
schließend ohne menschliche Eingriffe läuft und so den Aufwand reduziert. Auto- 
matisierung bedeutet zum Beispiel bei der Analyse von Texten, dass der 
Zusatzaufwand mit jedem zusätzlichen Dokument sinkt. Aus ökonomischer Sicht 
sinken die Grenzkosten: „As a rule-of-thumb, we consider a system fully automa- 
ted if the marginal cost of analyzing additional texts goes to zero as the size of the 
corpus being analyzed increases, and the coding is completely replicable given a 
set of software, dictionaries, and so forth“ (Monroe und Schrodt 2008, S. 352; 
siehe auch Scharkow 2011, S. 547). Automatisierung ist allerdings in der Praxis 
nicht zwangsläufig effektiv oder effizient (Abb. 1.1). Das Lernen der Verfahren, die 


“I SPEND A LOT OF TIME ON THIS TASK. 
I SHOULD WRITE A PROGRAM AUTOMATING IT!” 


Abb.1.1 Der Fluch der Automatisierung. (Quelle: Munroe (2013; https://xkcd.com/1319/)) 
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Vorbereitung der Infrastruktur und die Behebung von Fehlern führen häufig dazu, 
dass kontinuierlicher Aufwand betrieben werden muss. Gleichzeitig verändern sich 
dabei die Fragestellungen und Probleme, an denen gearbeitet wird. Insofern ist die 
Beschäftigung mit Computational Methods trotz oder vielleicht gerade aufgrund 
von Bemühungen zur maschinellen Automatisierung ein kreativer und inspirieren- 
der Prozess. 

Automatisierung kann in allen Phasen des Forschungsprozesses eine Rolle 
spielen: 


e Mittels automatisierter Datenerhebung können Inhalte wie etwa Kommentare 
auf Social-Media-Plattformen oder Webseiten in großem Umfang erschlossen 
werden. Zu diesem Zweck wird Webscraping eingesetzt, bei dem im Prinzip der 
Browser so automatisiert wird, dass die Klicks eines Menschen simuliert wer- 
den. Aus den Quelltexten der angesurften Webseiten werden dann die ge- 
wünschten Daten extrahiert. Einige Anbieter stellen auch Application Program- 
ming Interfaces (APIs) bereit, über die vorstrukturierte Daten abgerufen 
werden können. 

e Automatisierte Datenaufbereitung meint die Umwandlung unstrukturierter In- 
halte in strukturierte Daten. Unstrukturierte Inhalte zeichnen sich dadurch aus, 
dass die Eigenschaften der Fälle nicht bereits in standardisierter Form vorlie- 
gen. Bei der automatisierten Textanalyse werden beispielsweise aus Kommen- 
taren die Sätze und Wörter extrahiert und in Datensätze umgeformt, sodass 
Wörter zu Variablen werden (Document-Term-Matrix). Bei der Datenaufberei- 
tung geht es auch darum, nicht benötigte Daten zu entfernen (engl. boilerplate 
removal). 

e Der Übergang zwischen automatisierter Aufbereitung und Datenanalyse ist 
fließend. Auf Grundlage strukturierter Textdaten lassen sich beispielsweise 
Kommentare danach klassifizieren, ob sie eher positive oder eher negative 
Aussagen enthalten. Hier unterscheidet man überwachte und unüberwachte 
Lernverfahren. Erstere zeichnen sich dadurch aus, dass die Zielkategorien durch 
menschlich erstelltes Trainingsmaterial vorgegeben werden. Letztere sind ex- 
plorativ angelegt und gruppieren Fälle nach Ähnlichkeit, um zum Beispiel The- 
men zu bestimmen. In das Feld automatisierter Datenanalyse fallen darüber 
hinaus Netzwerkanalysen, Zeitreihenanalysen, geografische Analysen und 
Computersimulationen.* 


8 Für den Bereich Computational Social Science unterscheidet Cioffi-Revilla (2010, S. 260) 
automatische Informationsextraktion, Netzwerkanalysen, geografische Informationssys- 
teme, Modellierung von Komplexität und soziale Simulationsmodelle. 
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e Bei der Darstellung von Ergebnissen können ebenfalls computerbasierte Me- 
thoden zum Einsatz kommen. Beispielsweise werden große Netzwerke häufig 
mit Algorithmen visualisiert, bei denen die Elemente schrittweise in eine zwei- 
dimensionale Anordnung gebracht werden, sodass verbundene Elemente mög- 
lichst nah beieinanderstehen. Darüber hinaus lassen sich Ergebnisse interaktiv 
aufbereiten und online veröffentlichen, damit einzelne Datenkategorien oder 
Parameter von den Nutzer:innen nachträglich angepasst werden können. 


In diesem Sinne wird der Begriff im vorliegenden Buch verwendet: Der Bereich 
Computational Methods umfasst alle Verfahren der automatisierten Datenerhe- 
bung, -aufbereitung, -analyse und -darstellung.’ Im Buch werden einerseits kon- 
zeptionelle Grundlagen vermittelt und andererseits praktische Anleitungen gege- 
ben. Eine lineare Lektüre ist dabei nicht unbedingt nötig. Sie können beispielsweise 
direkt in die Kapitel zum Webscraping einsteigen. Je nach Vorwissen wird es hilf- 
reich sein, von dort gezielt in die vorangegangenen Kapitel zu springen, vor allem, 
wenn Ihnen die verwendeten Begriffe, Datenformate und Programmiertechniken 
unbekannt sind. In Kap. 12 am Ende des Buchs finden Sie weitere Hinweise zu 
möglichen Leserichtungen. 


1.2 Der Werkzeugkoffer 


Zwei Werkzeuge sind nicht nur für die folgenden Kapitel, sondern auch sonst für 
die Arbeit mit Computational Methods unverzichtbar: die Kommandozeile und ein 
guter Texteditor. Beides wird im Folgenden kurz eingeführt. Sie können die 
Ausführungen gegebenenfalls zunächst überfliegen und später nachschlagen. Zu- 
mindest die im ersten Abschnitt genannten Grundregeln für den Umgang mit Da- 
teien sollten Sie aber möglichst frühzeitig umsetzen. Im letzten Abschnitt zu den 
Begleitmaterialien finden Sie außerdem Hinweise zu Daten und Skripten, die er- 
gänzend zu den einzelnen Kapiteln als Hilfsmittel zur Verfügung stehen. 

Dieses Buch führt damit in die Tiefe der Computational Methods ein und soll 
dazu beitragen, dass Sie entsprechende Werkzeuge irgendwann auch selbst entwi- 
ckeln können. Alternativ finden sich mittlerweile unter dem Stichwort Forschungs- 
software (engl. research software) viele leistungsfähige Tools mit grafischen Be- 


Die Division der ICA definiert ähnlich: „Computational methods cover computerized tools 
and algorithms for collecting, processing, analyzing, and visualizing data such as social me- 
dia data, news sites, and other forms of communication“ (ICA CM 2017). 
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nutzeroberflachen.'° Diese sind sehr hilfreich für einen schnellen Einstieg und als 
Inspiration für mögliche Analyseverfahren. Wenn Sie sich in einen Bereich neu 
einarbeiten — beispielsweise in die Netzwerkanalyse —, dann lohnt es sich, zunächst 
nach passender Software zu recherchieren. Für viele Bereiche haben andere Wis- 
senschaftler:innen bereits Materiallisten zusammengestellt, die häufig als Awe- 
some List bezeichnet werden.'' Allerdings sind die Möglichkeiten dann auf die 
vorgegebenen Funktionen begrenzt und auch nicht immer im Detail transparent. 
Diese Beschränkungen können Sie überwinden, indem Sie selbst die Grundtechni- 
ken von Computational Methods erlernen. 


1.2.1 Grundregeln für Ordner und Dateien 


Wichtig ist für die Arbeit mit Daten, dass Sie sich mit dem Dateisystem Ihres Com- 
puters auskennen. Einige Grundregeln erleichtern die Arbeit ungemein: 


1. Erstellen Sie ein Arbeitsverzeichnis, das Sie leicht erreichen können, beispiels- 
weise in dem Dokumente-Ordner Ihres Computers. Unter einem Verzeichnis 
versteht man einen Ordner, in dem Unterordner und Dateien abgelegt werden. 
Die Anzahl der Dateien wächst in Programmierprojekten schnell an. Nutzen Sie 
deshalb zur Organisation auch Unterverzeichnisse. Arbeiten Sie immer in die- 
sem Verzeichnis, beispielsweise wenn Sie die Kommandozeile starten. 

Zu Ordnern, Unterordnern und Dateien können Sie mit der Maus navigieren, 
indem Sie im Explorer (Windows) bzw. dem Finder (Mac)'? die entsprechenden 
Symbole anklicken. Es ist allerdings auch möglich, Dateien oder Verzeichnisse 
gezielt über den sogenannten Pfad zu adressieren. Der Aufbau von Pfaden un- 
terscheidet sich zwischen den Betriebssystemen. Unter Windows (Abb. 1.2) 
beginnt ein Pfad mit dem Buchstaben des Laufwerks gefolgt von einem Dop- 
pelpunkt (meistens C:). Danach folgen getrennt mit Backslashs'* die Unterord- 


10 Siehe zum Beispiel die Sammlungen von Social Media Data Stewardship (2021; https:// 
socialmediadata.org/social-media-research-toolkit/) der Deutsche Gesellschaft für Publizistik- 
und Kommunikationswissenschaft (2022; https://www.dgpuk.de/de/forschungssoftware. 
html). Meine Forschungssoftware. Zugriff am 16.05.2022. 

"Zum Beispiel: Briatte (2021; https://github.com/briatte/awesome-network-analysis). 

12 Der Explorer bzw. Finder sind die Programme, mit denen man auf die Laufwerke und die 
eigenen Dateien zugreift. 

13 Unter Windows werden Pfadelemente mit dem Backslash \ getrennt, unter Linux und Mac 
dagegen mit einfachem Slash / . Der Vorwärtsslash / funktioniert in der Regel aber auch unter 
Windows. 
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Abb. 1.2 Die Adressleiste und das Einblenden von Dateierweiterungen unter Windows 11. 
Hinweis: Beachten Sie den Unterschied zwischen dem angezeigten Pfad in der Adressleiste 
und dem tatsächlichen Pfad. (Quelle: eigene Darstellung) 


ner. Der Pfad ist im Explorer in der Adressleiste erkennbar. Zu beachten ist, dass 
die Anzeige häufig gekürzt ist und englische Ordnernamen übersetzt sind. Der 
tatsächliche Pfad kann herausgefunden werden, indem man mit der Maus inner- 
halb eines Unterordners in die Adressleiste klickt. Unter Mac und Linux beginnt 
ein Pfad mit einem Slash, danach folgen getrennt mit weiteren Slashs die Unter- 
ordner. Eine vollständige Angabe ist hier aber nur selten nötig, denn mit einer 
Tilde - kann direkt auf das aktuelle Benutzerverzeichnis verwiesen werden 
(Abb. 1.3). 

Wenn Sie bereits im gewünschten Verzeichnis sind, können Sie in der Kom- 
mandozeile oder beim Programmieren relative Pfade einsetzen. Relative Pfade 
beginnen im aktuellen Verzeichnis. Aus dem aktuellen Arbeitsverzeichnis und 
dem relativen Pfad wird automatisch der absolute Pfad zusammengesetzt. Wenn 
beispielsweise der Ordner C:\Users\Jakob\Documents\ Ihr aktuelles Arbeits- 
verzeichnis ist, dann reicht die Angabe Datenanalyse, um das entsprechende 
Unterverzeichnis zu benennen. 

2. Verwenden Sie in Dateinamen keine Leerzeichen, Umlaute und Sonderzei- 
chen. Anstelle von Leerzeichen können Sie Unterstriche verwenden. Unter Mac 
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Abb. 1.3 Dateierweiterungen unter macOS im Finder einblenden. Hinweis: Beachten Sie, 
dass sich die Tilde im tatsächlichen Pfad auf das Benutzerverzeichnis bezieht. (Quelle: ei- 
gene Darstellung) 


und Linux wird Groß- und Kleinschreibung unterschieden. Deshalb ist es güns- 
tig, alle Namen in Kleinschreibung zu halten. 

Dateien setzen sich aus einem Namen und einer Endung zusammen. Die 
Dateiendung umfasst den letzten Teil nach dem Punkt; darüber ist der Dateityp 
erkennbar. Bilder haben beispielsweise die Endung .png oder .jpg. Quelltexte 
enden mit .R oder mit .py. Daten werden häufig in Dateien mit den Endungen 
.csv und .json abgelegt. Textdateien erkennen Sie an der Endung .rxt. Auch 
Markdown-Dateien mit der Endung .md werden Ihnen begegnen. Diese enthal- 
ten Text, der mit einfachen Konventionen so strukturiert und formatiert ist, dass 
er zum Beispiel auf Webseiten angezeigt werden kann (siehe Kap. 3). 

Je nach Voreinstellung Ihres Betriebssystems müssen Sie die Dateiendungen 
erst einblenden, das sollten Sie am besten jetzt sofort tun! Unter Windows 11 
(Abb. 1.2) öffnen Sie dazu den Explorer, wechseln in den Reiter ANZEIGEN und 
wählen im Bereich EINBLENDEN die Option DATEINAMENERWEITERUNGEN. 
Unter macOS (Abb. 1.3) öffnen Sie im Finder die Voreinstellungen und wählen 
die Option ALLE DATEINAMENSUFFIXE EINBLENDEN. Unter Linux-Systemen 
werden die Erweiterungen normalerweise standardmäßig angezeigt. 
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1.2.2 Die Kommandozeile 


Mit der Kommandozeile, auch Eingabeaufforderung, Konsole, Terminal oder Shell 
genannt, schauen Sie hinter den Vorhang der grafischen Oberfläche von Windows, 
Mac oder Linux. Hier werden über die Tastatur Befehle eingegeben, mit denen 
zum Beispiel Programme installiert oder gestartet werden. Die Handhabung und 
die Befehle unterscheiden sich etwas zwischen den Betriebssystemen. Auch wenn 
Sie normalerweise unter Windows oder Mac arbeiten, kommt vermutlich irgend- 
wann der Zeitpunkt, zu dem Sie in ein Linux-Terminal wechseln müssen. Denn 
insbesondere Cloud-Computing, das heißt die Nutzung von Servern statt des eige- 
nen Computers, setzt üblicherweise auf einer Infrastruktur mit Linux-Systemen auf. 

Die klassische Kommandozeile'* öffnen Sie unter Windows zum Beispiel, in- 
dem Sie die Windows-Taste drücken und die Buchstaben cmd (= command) einge- 
ben. Nach dem Starten wird das aktuelle Verzeichnis angezeigt (Abb. 1.4). Hinter 
dem aktuellen Verzeichnis blinkt ein Cursor und Sie können an dieser Stelle Be- 


Verzeichnis zu absolutem Pfad 
wechseln (C:\...) 


Inhalt anzeigen 


kob\Documen 


Verzeichnis zu relativem Pfad 
wechseln 


Abb. 1.4 Die Eingabeaufforderung unter Windows 10. (Quelle: eigene Darstellung) 


“Unter Windows steht außerdem die mächtigere PowerShell zur Verfügung, die Befehle 
unterscheiden sich teilweise von der Eingabeaufforderung. Darüber hinaus können Shells 
installiert werden, die der Linux- und Mac-Shell gleichen. Wenn Sie die Versionsverwaltung 
Git (siehe unten) installieren, steht anschließend eine Linux-ähnliche Shell zur Verfügung. 
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fehle eingeben, um beispielsweise Verzeichnisse zu wechseln oder Programme zu 
installieren. Ein Befehl wird ausgeführt, sobald er mit der Enter-Taste bestä- 
tigt wird. 

Das Verzeichnis wechseln Sie mit dem Befehl cd (= change directory) und der 
Angabe eines absoluten oder relativen Pfads.'° Der Befehl dir zeigt den Inhalt des 
Verzeichnisses an, also die enthaltenen Dateien und Ordner. Um vom aktuellen 
Verzeichnis eine Ebene nach oben zu wechseln, wird der Befehl cd .. verwen- 
det. Längere Pfade oder Befehle können auch über die Zwischenablage in die 
Kommandozeile eingefügt werden. 

Den Umweg über den cd-Befehl kann man sich aber sparen, wenn man das 
Verzeichnis zunächst im Explorer öffnet. Gibt man anschließend oben in die Ad- 
ressleiste cmd ein und bestätigt mit der Entertaste, dann wird die Kommandozeile 
in diesem Verzeichnis geöffnet. 

Auf dem Mac lässt sich die Kommandozeile öffnen, indem in der Spotlight- 
Suche (Lupen-Symbol) „Terminal“ eingegeben wird. Im Terminal wird zu Beginn 
einer Zeile der Name des Computers angezeigt, nach einem Doppelpunkt folgen 
der Name des aktuellen Verzeichnisses, dann ein Leerzeichnen und der Benutzer- 
name (Abb. 1.5). Die Befehle werden hinter dem Dollarzeichen eingegeben. Auch 
hier werden Verzeichnisse durch den Befehl cd gefolgt von einem relativen oder 
absoluten Pfad gewechselt. Der Inhalt des aktuellen Verzeichnisses wird mit dem 
Befehl 1s angezeigt, wobei der Parameter -1 für eine kompakte Darstellung 


sorgt: 1s -1. 
( wom ) D) Datenanalyse — -basi 
Last login: Sun Dec 1 81:39:48 on ttys008 Verzeichnis zu Unterordner im 
devels-iMac:~ devel$ Benutzerordner wechseln 
‚(devels-iMac:Documents devel$|ls -1| 


total @ 
drwxr-xr-x 2 devel staff 68 Dec 1 81:39 Datenanaly Inhalt anzeigen 
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Verzeichnis zu relativem Pfad 
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Abb. 1.5 Das Terminal unter macOS High Sierra. (Quelle: eigene Darstellung) 


!5Das Laufwerk können Sie nicht über den Befehl cd wechseln, stattdessen muss der Buch- 
stabe mit Doppelpunk ohne weiteren Befehl eingegeben werden. 
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Abb. 1.6 Das Terminal unter Ubuntu 18. (Quelle: eigene Darstellung) 


Unter einem Linux-System wie Ubuntu erreichen Sie die Kommandozeile tiber 
die Command-Taste und Eingabe von „Terminal“. Da sowohl macOS als auch 
Linux zu den Unix-Systemen zählen, ist die Bedienung identisch (Abb. 1.6). 

Egal auf welchem System Sie arbeiten, einige Funktionen sind in nahezu jeder 
Kommandozeile enthalten. Mit den Pfeiltasten (hoch/runter) können Sie etwa vor- 
herige Befehle aufrufen. Bei langen Verzeichnisnamen hilft auch die Autovervoll- 
ständigung: Tippen Sie die ersten Buchstaben ein und drücken Sie dann die Tabu- 
latortaste! 

Die Kommandozeile können Sie schließen, indem Sie das Fenster schließen. 
Wenn Sie innerhalb der Kommandozeile in einem Befehl festhängen, dann können 
Sie in der Regel über die Tastenkombination Strg + Pause oder Strg + C (Windows) 
bzw. Command + Pause oder Command + C (Mac) entkommen.'® 


1.2.3 Texteditoren 


Ein weiteres wichtiges Werkzeug sind Texteditoren. Denn viele Datenformate, 
Skripte und Quelltexte sind Textformate. Vor allem wenn man den Inhalt einer 
Datei oder das Dateiformat nicht kennt, sollte man die Datei zunächst mit einem 
Texteditor erkunden. Auf der Kommandozeile stehen unter Unix-Systemen haufig 
die Editoren vim und nano zur Verfiigung. 


16 Das Pluszeichen bei der Angabe von Tastenkombinationen bedeutet, dass die ersten Tasten 
gehalten werden, es wird nicht mit eingegeben. 
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Für Einsteiger ist die Arbeit auf der Kommandozeile aber häufig etwas um- 
ständlich. Ein für alle Betriebssysteme geeigneter Open-Source-Texteditor ist 
Atom.” Nach dem ersten Starten wird eine Einführung präsentiert. Eine Stärke 
dieses Editors ist die Paketverwaltung (Menüpunkt EINSTELLUNGEN), über die 
viele Erweiterungen nachinstalliert werden können. Unter Windows ist Notepad++ 
empfehlenswert und die meisten Beispiele in diesem Buch werden mit diesem Edi- 
tor illustriert." Ein Texteditor, der speziell für MacOS entwickelt wurde, ist Text- 
mate.” Eine weitere betriebssystemübergreifende Alternative bietet der Editor VS 
Code.” Installieren Sie sich am besten jetzt gleich einen solchen Texteditor! 

Um Dateien in einem Texteditor zu öffnen, gibt es in der Regel zwei Wege. 
Entweder starten Sie zuerst den Editor und öffnen die Datei über das entsprechende 
Menü. Oder Sie suchen im Dateimanager (Explorer, Finder bzw. Files) das Ver- 
zeichnis und öffnen die Datei von dort aus über das Kontextmenü der Datei. Dieses 
Kontextmenü wird in der Regel über die rechte Maustaste erreicht. Dort finden Sie 
beispielsweise unter Windows einen Punkt ÖFFNEN MIT und können dann den Text- 
editor auswählen. Erscheint der Texteditor nicht bereits bei den vorgeschlagenen 
Programmen, können Sie ihn dort hinzufügen. Dafür suchen Sie den Ordner, in 
welchem der Editor installiert ist und wählen in diesem unter Windows die Datei 
mit der Endung .exe aus. 


1.2.4 Begleitmaterialien zum Buch 


Ein weiteres Hilfsmittel für den Einstieg in die Welt der Computational Methods 
können die Begleitmaterialien zu diesem Lehrbuch sein. Da Computational Methods 
sehr praktisch sind, sollen die vorbereiteten Beispiele, Skripte und Datensätze die 
einzelnen Kapitel dieses Buchs ergänzen und dabei helfen, schrittweise eigene prak- 
tische Kompetenzen aufzubauen. Besonders bei komplexen Verfahren kann es hilf- 
reich sein, zunächst vorbereitete Skripte Schritt für Schritt nachzuvollziehen, bevor 
man selbst Anpassungen vornimmt und schlussendlich eigene Skripte schreibt. 

Die Begleitmaterialien befinden sich in einem GitHub-Repositorium,?' das zu 
Beginn eines jeden Kapitels verlinkt ist und auf das wir im Text mit ® Reposito- 


17 Siehe GitHub (2022a; https://atom.io/). 

18 Siehe Ho (2022; https://notepad-plus-plus.org/). 

'9 Siehe MacroMates (2021; https://macromates.com/). 

20 Siehe Microsoft (2022b; https://code.visualstudio.com/). 


2! GitHub ist eine Plattform für Entwickler:innen, die dort ihren Code teilen, die Entwick- 
lungsarbeit dokumentieren und koordinieren (siehe Abschn. 6.1). 
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rium verweisen. Die Inhalte des Repositoriums können Sie entweder im Browser 
öffnen oder lokal auf Ihrem Computer speichern und bearbeiten. Um die Dateien 
gesammelt herunterzuladen, finden Sie unter der Bezeichnung Cope einen Link zu 
einer Zip-Datei. Da Repositorien auf GitHub unter Versionsverwaltung stehen, 
können diese auch über Befehle der Versionsverwaltung heruntergeladen werden. 
Nutzen Sie die Gelegenheit, um das Zusammenspiel von Kommandozeile, Versi- 
onsverwaltung und Texteditor auszuprobieren! Dazu installieren Sie zunächst die 
für Ihr Betriebssystem passende Git-Version.” Anschließend können Sie über die 
folgenden Schritte das Verzeichnis herunterladen: 


1. Legen Sie ein Arbeitsverzeichnis auf Ihrem Computer an und öffnen Sie dort 
die Kommandozeile. 

2. Laden Sie das Repositorium über die Kommandozeile mit folgendem Befehl 
herunter: git clone https: //github.com/strohne/cm 

3. Öffnen Sie in einem der Verzeichnisse des heruntergeladenen Repositoriums 
die Datei readme.md mit Notepad++, Atom oder einem anderen Texteditor. 


Einen Einstieg in Versionsverwaltungen bietet Abschn. 6.1. 


1.3 Mit Fehlern umgehen 


Fehler zu machen, zu erkennen und zu beheben ist ein ganz wesentlicher Bestand- 
teil von Computational Methods. Schließlich handelt es sich um ein interdiszipli- 
näres Feld, das Wissen und Methoden aus unterschiedlichen Bereichen umfasst, in 
denen man nicht zwangsweise bereits Expert:in ist. Außerdem lassen sich kaum 
neue Daten erschließen, Programme erkunden oder Methoden ausprobieren, ohne 
dabei auch einmal festzustecken oder zeitweise in die falsche Richtung zu laufen. 

Während das Lösen von Problemen durchaus viel Spaß bereiten kann, wenn 
man an neuen Ideen knobelt und dabei über sich hinauswächst, kann es gleichzeitig 
frustrierend und zeitintensiv sein. Um möglicher Frustration vorzubeugen, sind 
nachfolgend einige häufige Fehler und Tipps aufgeführt: 


e Manchmal werden Dateien oder Verzeichnisse nicht gefunden. Hier hilft es, 
systematisch zu überprüfen, ob sich der angegebene Pfad auch auf das richtige 
Arbeitsverzeichnis bezieht, die Datei auch wirklich in diesem Ordner liegt und 
das Datenformat korrekt ist. 


? Siehe Git (2022a; https://git-scm.com/downloads). 


22 1 Einleitung und Überblick 


e Häufige Fehlerquellen sind außerdem Schreibfehler. Diese sind leicht zu über- 
sehen, da sie in einigen Programmen nicht optisch hervorgehoben werden. 
Auch Leerzeichen, Groß- und Kleinschreibung machen in den meisten Pro- 
grammiersprachen einen Unterschied. Es hilft oft, mehrfach zu prüfen, ob Ver- 
zeichnisse, Variablen oder Befehle richtig geschrieben sind. Einige Wörter wie 
„for“ oder „in“ sind in Programmiersprachen mit Funktionen belegt und sollten 
nur dafür verwendet werden. 

e Wenn Dateien nicht korrekt eingelesen werden, kann dies an Steuerzeichen 
oder nicht sichtbaren Zeichen liegen. In CSV-Dateien signalisieren zum Bei- 
spiel Zeilenumbrüche, wann eine neue Zeile in einer Tabelle beginnt und diese 
Markierungen können je nach Betriebssystem unterschiedlich formatiert sein. 
Hier hilft es, die Datei im Texteditor zu öffnen, nicht sichtbare Zeichen einzu- 
blenden und zum Beispiel Zeilenumbrüche auszutauschen (siehe Abschn. 3.1). 

e Bei der Arbeit mit R oder Python verwendet man häufig Funktionen, also defi- 
nierte Abläufe von Befehlen, die andere Entwickler:innen in sogenannten 
Packages bereitstellen. Packages werden meist laufend weiterentwickelt. Des- 
halb kommt es vor, dass Befehle nach einiger Zeit veralten und nicht mehr 
funktionieren. Hinweise dazu, wie Sie die Version der Packages überprüfen und 
aktualisieren, finden Sie in den entsprechenden Kapiteln (siehe Kap. 5). 
Mitunter werden Funktionen sogar abgeschafft (engl. deprecated), dann muss 
man sie durch Alternativen ersetzen. 

e Uber viele Fehlermeldungen haben sich meistens bereits andere geärgert. Des- 
wegen hilft es häufig, angezeigte Fehlermeldungen in eine Suchmaschine ein- 
zugeben. Eine Plattform, auf der viele Problemlösungen dokumentiert sind und 
über die man Hilfe zu speziellen Programmierfragen bekommt, ist Stack Over- 
flow.” Dahinter steht eine aktive Community, die sich gegenseitig bei Proble- 
men rund um das Programmieren hilft. 

° Eine gute Inspirationsquelle sind Cheatsheets, die im Internet zu allen mögli- 
chen Themen und Programmiersprachen oder -paketen zu finden sind. Auf nur 
ein bis zwei Seiten werden übersichtlich die entsprechenden Hilfsmittel zusam- 
mengefasst und es lässt sich schnell ein Überblick über wichtige Funktionen 
gewinnen. 


Die aufgeführten Punkte erscheinen vielleicht im ersten Moment trivial. Dennoch 
tappen selbst ausgewiesene Expert:innen immer wieder in die gleichen Fallen. Die 
Fehlerbehebung bleibt stets eine der wichtigsten Tätigkeiten und es ist hilfreich, 
dafür nach und nach eigene Routinen auszubilden. 


33 Siehe Stack Overflow (2022; https://stackoverflow.com). 
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1.4 Überblick über das Buch 


Computational Methods, wie sie hier verstanden werden, schlagen eine Brücke zwi- 
schen automatisierten Verfahren und inhaltlichen Fragestellungen. Fängt man an 
damit zu arbeiten, geht ein Großteil der Zeit in die Aufbereitung von Daten, die 
Erkundung von Methoden und natürlich in die Behebung von Fehlern. Allein die 
Auseinandersetzung mit den Methoden ist inspirierend für den Forschungsprozess, 
am Ende geht es aber darum, Phänomene in der geistigen, kulturellen und sozialen 
Welt zu verstehen und zu erklären. Mit Computational Methods werden zum einen 
altbekannte Fragestellungen adressiert, etwa wie sich Öffentlichkeit über Diskurse 
im Zeitverlauf entfaltet. Sie werfen neues Licht auf diese Phänomene, indem bei- 
spielsweise größere Textkorpora analysiert werden können oder Diskurse als Netz- 
werke von Akteuren und Texten verstanden werden. Zum anderen ergeben sich in 
unseren Lebenswelten allein durch das Aufkommen von Online-Plattformen und 
den Einsatz sogenannter Künstlicher Intelligenz — dieser schillernde Begriff meint 
nichts anderes als automatisierte Verfahren — auch neue Forschungsfragen. In Bezug 
auf Offentlichkeit stellt sich beispielsweise die Frage, inwiefern Empfehlungssysteme 
zu einer Fragmentierung von Öffentlichkeit führen, wenn Menschen personalisier- 
ten Inhalten ausgesetzt werden. Und der Einsatz von Bots führt auch zu grundsätz- 
lichen theoretischen Fragen, etwa zu der Frage, inwiefern Programme und Algorith- 
men als handelnde Akteure begriffen werden können und wem eigentlich die 
Verantwortung für automatisiertes Verhalten zugeschrieben wird. 

Computational Methods sind somit in der Lebenswelt anzutreffen, gleichzeitig 
aber auch Analyseinstrumente für wissenschaftliche Fragestellungen. Die Welt 
dieser Methoden entwickelt sich ständig weiter. Damit Sie für unterschiedliche 
Szenarien gewappnet sind, werden im ersten Teil des Buchs konzeptionelle Grund- 
lagen eingeführt. Unabhängig von konkreter Software oder bestimmten Tools wer- 
den Denkmuster vermittelt — insbesondere geht es darum, die Welt durch eine 
eckige Brille als Ansammlung von Matrizen und Tabellen zu betrachten. Denn dies 
ist eine grundlegende Datenstruktur, mit der Daten erfasst, transformiert und ana- 
lysiert werden können. 


e Kap. 2 führt in Zugänge zur automatisierten Datenerhebung ein und benennt 
exemplarische Datenquellen: Unstrukturierte Inhalte können aus Webseiten 
ausgelesen werden, vorstrukturierte Daten werden über Application Program- 
ming Interfaces (APIs) bereitgestellt und schließlich findet sich mittlerweile 
eine Vielzahl von Datenbanken mit fertig aufbereiteten Datensätzen. 

e In Kap. 3 werden Datenformate vorgestellt, denen man in der Welt der Com- 
putational Methods begegnet. Grundlegend ist die Unterscheidung von Daten- 
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typen — beispielsweise von Zahlen oder Buchstaben. Diese Daten können 
tabellarisch zusammengestellt oder durch Auszeichnungssprachen und Objekt- 
datenformate strukturiert sein. Auch für die Zusammenstellung mehrerer Tabel- 
len zu Datenbanken gibt es etablierte Verfahren. Dahinter liegen Datenmodelle, 
mit denen die Abbildung der Wirklichkeit auf Datenstrukturen und damit die 
Bedeutung der Daten festgelegt werden. 

Verfahren zur Datenextraktion werden in Kap. 4 beleuchtet. Mit Selektions- 
verfahren und -sprachen wie regulären Ausdrücken, XPath oder SQL lassen 
sich unstrukturierte in strukturierte Daten transformieren oder Teildatensätze 
auswählen, um sie schließlich für die Datenanalyse in Tabellen- oder Matrizen- 
form umzuformen, zusammenzuführen und zu aggregieren. 


Im zweiten Teil des Buchs findet sich jeweils eine kurze Einführung in die Pro- 
grammierung mit R und Python, zwei der wichtigsten Sprachen für die Anwen- 
dung von Computational Methods. Diese Sprachen verweisen auf unterschiedliche 
Traditionen. Während R näher an der Welt der Statistik ist, wird Python insbesondere 
von Wissenschaftler:innen mit Informatikhintergrund eingesetzt. Beide Sprachen 
sind sehr gut dazu geeignet, Daten zu erheben, aufzubereiten und auszuwerten. Je 
nach Anwendungsgebiet können Sie persönliche Vorlieben ausbilden, sodass bei- 
spielsweise die Datenerhebung mit Python und die Datenanalyse mit R schneller 
von der Hand gehen. 


Abschn. 5.1 führt kurz und knapp in die Programmierung mit R ein. Hier 
lernen Sie zunächst, wie die Entwicklungsumgebung RStudio aufgebaut ist, wie 
Befehle formuliert und Skripte entwickelt werden. Dabei werden grundlegende 
Funktionen, unter anderem aus dem Tidyverse, besprochen, um Datensätze ein- 
zulesen, zu filtern und zu analysieren. Auch das Erstellen von Grafiken ist ein 
wesentlicher Bestandteil der Datenanalyse mit R. 

Abschn. 5.2 bietet eine praxisorientierte Einführung in die Programmierung 
mit Python. Zu Beginn lernen Sie, wie Sie Jupyter-Notebooks einrichten und 
nutzen. Anschließend wird in Basisbefehle, Datenstrukturen und Funktionen 
eingeführt. Für die Datenanalyse lernen Sie Funktionen aus der weit verbreite- 
ten Programmbibliothek pandas kennen. 

In Kap. 6 finden Sie Hilfestellungen, sobald Programmierprojekte größer wer- 
den, etwa wenn mehrere Personen gleichzeitig an einem Projekt arbeiten oder 
die Datenmengen sehr umfangreich werden. Dabei erfahren Sie, wann sich die 
Arbeit mit Versionsverwaltungen lohnt, wie Computer virtualisiert werden kön- 
nen und wie Datenanalysen auf ein Cluster für High-Performance-Computing 
ausgelagert werden. 
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Der dritte Teil des Buchs beschäftigt sich schließlich mit konkreten Anwendungs- 
feldern von Computational Methods, in denen die bis dahin thematisierten Grund- 
techniken eingesetzt werden. Die Beispiele werden in einer der beiden Program- 
miersprachen R oder Python angeleitet und gegebenenfalls um Hinweise zur 
Umsetzung in der jeweils anderen Sprache ergänzt. Jedes der Kapitel fasst die je- 
weiligen Verfahren kurz zusammen und führt schrittweise durch ein praktisches 
Beispiel. Zunächst werden Verfahren automatisierter Datenerhebung thematisiert: 


e Eine Einführung in Webscraping, um Inhalte aus Webseiten auszulesen, bietet 
Abschn. 7.1. Dabei lernen Sie zunächst, wie Sie mit Python einzelne HTML- 
Dokumente herunterladen, Daten aus dem Quelltext extrahieren und abspei- 
chern. Um mehrere Webseiten abzufragen, kann der Webbrowser mithilfe von 
Selenium automatisiert werden und Sie finden Hinweise auf Programme und 
Plattformen, die beim Webscraping unterstützen. 

e Wie Sie mit Application Programming Interfaces (APIs) arbeiten, lernen Sie 
in Abschn. 7.2. Uber APIs lassen sich vorstrukturierte Daten erheben, die von 
den Plattformbetreibern bereitgestellt werden. Zwei Anwendungsfälle verdeut- 
lichen den Nutzen von APIs: Zum einen werden Social-Media-Daten mithilfe 
von Facepager über die Twitter-API erhoben und zum anderen wird automati- 
sche Bilderkennung tiber Googles Cloud-Vision-API vorgestellt. 


Sobald die Daten vorliegen, kommt es zur Datenanalyse, um inhaltliche Fragestel- 
lungen zu beantworten: 


e Vorhersagen und Klassifikationen haben eine lange Tradition in der Statistik, 
zum Beispiel in der Regressionsanalyse. Sie werden aus Sicht von Computatio- 
nal Methods häufig als Probleme des Machine Learnings begriffen und in 
Kap. 8 behandelt. Zunächst wird in grundlegende Konzepte des maschinellen 
Lernens eingeführt. Als überwachtes Lernverfahren wird in Abschn. 8.1 ein 
künstliches neuronales Netz trainiert, um damit Bilder automatisiert vorgegebe- 
nen Kategorien zuzuordnen. In Abschn. 8.2 wird als unüberwachtes Lernver- 
fahren Topic Modelling angewendet, mit dem Texte ohne vorab bekannte Kate- 
gorien sortiert werden. 

e Kap. 9 beschäftigt sich mit der automatisierten Textanalyse, die Texte als Da- 
ten begreift, indem sie diese in ihre Bestandteile zerlegt und in Variablen über- 
führt. Das Kapitel behandelt Grundtechniken zum Auszählen von Wörtern, die 
diktionärsbasierte Inhaltsanalyse und gibt einen Ausblick auf die Analyse von 
Syntax und Semantik. 
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e Die Beziehungen zwischen Akteuren, aber auch Konzepten und Ereignissen, 
können über Netzwerkanalysen betrachtet werden. Aus netzwerkanalytischer 
Sicht interessiert beispielsweise, wie sich Informationen verbreiten oder wie 
sich die Ressourcen eines Akteurs durch die Beziehungen zu anderen Akteuren 
erklären lassen. Das Kap. 10 beinhaltet eine Einführung in die grundlegenden 
Konzepte der Netzwerkanalyse sowie ein praktisches Beispiel zur Erhebung, 
Analyse und Visualisierung eines Netzwerkes. 

e Kap. 11 führt in Simulationsverfahren ein, bei welchen hypothetische Welten 
erschaffen und mit empirisch vorgefundenen Welten verglichen werden. Da- 
durch lässt sich zum einen nachvollziehen, wie aus dem Verhalten einzelner 
Akteure auf der Ebene von Gesamtsystemen komplexe Effekte emergieren — 
etwa inwiefern es zur Fragmentierung von Öffentlichkeit kommt, wenn vor al- 
lem personalisierte Inhalte konsumiert werden. Zum anderen kann überprüft 
werden, inwiefern die in einem Datensatz vorgefundenen Zusammenhänge 
überzufällig oder auffällig erscheinen, wenn sie mit kontrafaktischen Welten 
verglichen werden. 


Auch wenn die Reihenfolge der drei Teile eine bestimmte Leserichtung nahelegt, 
sind alle Kapitel so konzipiert, dass sie losgelöst von den anderen gelesen werden 
können. Wir hoffen, dass sie gleichzeitig als Inspiration und als Nachschlagewerk 
dienen können. Für einen schnellen Einstieg kopieren Sie die Skriptschnipsel aus 
dem Buch oder Repositorium und wandeln Sie diese für eigene Zwecke ab. Fehler 
sind selbstverständlich vorprogrammiert. 


Übungsfragen 


1. Was versteht man unter Computational Methods? 

2. Wählen Sie eine wissenschaftliche Disziplin und finden Sie heraus, wie die 
Verbindung mit Computational Methods in dieser Disziplin bezeichnet wird! 
Wie heißt dieser Bereich zum Beispiel in der Musik oder in der Physik? 

3. Was sind forschungspraktische Konsequenzen von Automatisierung? 

Was sind absolute und relative Pfade? 

5. Wie öffnen Sie die Kommandozeile? 
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Zusammenfassung 


Dieses Kapitel beinhaltet eine Einführung in Datenquellen, aus denen Daten 
mit Computational Methods gewonnen und analysiert werden können. Sie ler- 
nen, worin sich verschiedenen Verfahren automatisierter Datenerhebung unter- 
scheiden und wie Ressourcen im Web identifiziert werden. Außerdem erfahren 
Sie, wo wissenschaftlich verwertbare Daten zu finden sind. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit @ verweisen. 


Schlüsselwörter 


Uniform Resource Locator (URL) - Application Programming Interface (API) - 
Repositorien - Datenspenden - Open Data 


Im Bereich Computational Methods besteht eine zentrale Frage darin, wie automa- 
tisiert sozial- und geisteswissenschaftlich relevante Daten gewonnen werden kön- 
nen. Automatisierte Datenerhebungen sind vor allem dort sinnvoll, wo sehr viele 
Daten anfallen, die man ungern manuell aufbereiten will. Das trifft beispielsweise 
für die Kommunikation auf Online-Plattformen wie Facebook zu. Die Daten sind 
dabei in der Regel schon vorhanden und werden nicht erst von Wissenschaftler:in- 
nen erstellt. Sie fallen im Zusammenhang mit menschlichem Verhalten ohnehin an, 
deshalb spricht man auch von prozessgenerierten Daten (Johnson und Turner 
2003). Dennoch kann man nicht davon ausgehen, dass hier ein unverfälschter Zu- 
gang zu einer ohnehin vorhandenen sozialen Wirklichkeit besteht, vielmehr wird 
Wirklichkeit erst auf den Plattformen erzeugt — zum Beispiel spielen die Funktio- 
nen der Plattformen eine wichtige Rolle dafür, welche Daten entstehen und zu- 
gänglich sind (siehe zum Beispiel Jünger 2021). 

Über verschiedene Datenzugänge werden unterschiedliche Repräsentationen 
von Wirklichkeit sichtbar. Dieser Punkt lässt sich gut am Beispiel von Online- 
Kommunikation verdeutlichen. Aus technischer Sicht ist Online-Kommunikation 
dadurch gekennzeichnet, dass zwei Maschinen miteinander interagieren. Auf der 
Seite der Nutzer:innen wird diese Maschine als Client bezeichnet, der Client 
schickt eine Anfrage an einen Server. Der Server bearbeitet die Anfrage und schickt 
eine Antwort zurück. Beim Surfen im Web findet dieses Wechselspiel ausgehend 
von einem Browser wie Firefox, Chrome oder Safari statt. Automatisierte Datener- 
hebung ist nun dadurch gekennzeichnet, dass Skripte oder Programme eingesetzt 
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werden, um Daten beim Server anzufragen. Statt also die Adresse https://www. 
google.de in den Browser einzugeben, wird diese Adresse in einem Erhebungstool 
erzeugt und das Ergebnis wird weiterverarbeitet (Abb. 2.1). 

Normalerweise antworten Webserver mit HTML-Dateien, die dann im Browser 
grafisch dargestellt werden. Diese HTML-Dateien enthalten die Daten und Ver- 
weise auf weitere Dateien, die zur Darstellung benötigt werden, etwa zu Bildda- 
teien. Formatvorlagen in der Form von CSS-Dateien steuern darüber hinaus die 
Gestaltung, etwa die Schriftfarbe, und JavaScript-Dateien fügen interaktive Ele- 
mente hinzu, zum Beispiel zum Auf- und Zuklappen von Menüs. Wenn bei der 
automatisierten Datenerhebung mit diesen HTML-Dateien gearbeitet wird, spricht 
man von Webscraping (siehe Abschn. 7.1). Die Dateien werden hierbei nicht ange- 
zeigt, sondern es werden einzelne Daten wie Texte oder Tabellen aus dem HTML- 
Quelltext von Webseiten extrahiert. 

Viele Webseiten, unter anderem Social-Media-Plattformen, stellen zusätzlich 
sogenannte Application Programming Interfaces (APIs) zur Verfügung. Eine sol- 
che API unterscheidet sich von Webseiten dadurch, dass sie für den automatisierten 
Zugriff unabhängig von einem Browser entwickelt wird. Während Anbieter die 
Struktur einer Webseite bei Bedarf unangekündigt ändern — vor allem, wenn neue 
Funktionen eingeführt werden -, garantieren die Betreiber von APIs in der Regel, 


Browser Rae) Webseite 
get 
= 
we 
Erhebungs- 
= 
tool 

Application 
Programming 
Interfaces 
Datenbanken 


Abb. 2.1 Verfahren automatisierter Datenerhebung im Web. (Quelle: eigene Darstellung) 
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dass diese über lange Zeiträume stabil bleiben. Nur deshalb lohnt sich für Drittan- 
bieter die Investition in eigene Apps, die auf Fremddaten aufbauen. Würde sich 
etwa die Struktur der Google-Maps-API immer wieder ändern, gäbe es keine Ga- 
rantie, dass eine darauf aufbauende Geocaching-App danach noch funktioniert. 
Ein weiterer Unterschied besteht darin, dass die zurückgegebenen Daten nicht im 
HTML-Format, sondern in stärker vorstrukturierten und damit leichter verarbeit- 
baren Formaten wie JSON verschickt werden (siehe Kap. 3). 

Sowohl der Zugang über Webscraping als auch die Nutzung von APIs sind davon 
abhängig, welche Daten ein Betreiber zugänglich macht. Im Endeffekt vermitteln 
beide Wege den kontrollierten Zugriff auf die Datenbanken des Anbieters, es han- 
delt sich dabei jedoch um verschiedene Repräsentationen der Daten. In seltenen 
Fällen werden die Datenbanken selbst zur Verfügung gestellt. Ein Beispiel wäre die 
Wikipedia-Datenbank. Auch hier erfolgt der Zugriff aber nicht unvermittelt, zum 
einen muss die Datenbank erst heruntergeladen werden und zum anderen ist für die 
Arbeit mit Datenbanken ein passendes Datenbankmanagementsystem (DBMS) nö- 
tig (siehe Kap. 3). Insofern gibt es keine unvermittelten Daten und es muss stets 
reflektiert werden, wofür die erhobenen Daten stehen. In den folgenden Kapiteln 
werden Grundlagen zu den drei verschiedenen Datenzugängen und entsprechenden 
Datenformaten vermittelt sowie einige typische Datenquellen benannt. 


2.1 Webseiten 


Ein wesentliches Element des Web sind Uniform Resource Locators (URLs), mit 
denen die verschiedenen Ressourcen im Web adressiert werden. Eine solche URL 
besteht in der Regel aus fünf Komponenten (Abb. 2.2, © Repositorium): 


e Das Protokoll gibt an, in welcher Sprache die beiden Computer miteinander 
interagieren. Im Web wird dafür typischerweise HTTP (Hypertext Transfer Pro- 
tokoll) oder für verschlüsselte Kommunikation HTTPS verwendet. 

e Die Domain identifiziert den Server und besteht selbst wieder aus mehreren 
durch Punkt getrennten Teilen. Im Beispiel ist die Top-Level-Domain „com“, 
die Domain selbst ist „youtube“ und das Präfix „www“ wird als Subdomain 
bezeichnet. 

e Der Pfad gibt die Operation oder die Ressource auf dem Server an. Vereinfa- 
chend kann man davon ausgehen, dass hinter einer Domain ein Computer steht 
und der Pfad die Datei oder das Programm angibt, auf welche zugegriffen wer- 
den soll. 
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e Nach einem Fragezeichen folgen die Parameter der Anfrage (engl. query 
string), um dem Server genauere Angaben zum Auffinden der Ressource mitzu- 
geben. Ein Parameter besteht immer aus einem Namen, auf den nach einem 
Gleichheitszeichen ein Wert folgt. Mehrere Parameter werden durch das &-Zei- 
chen getrennt. 

e Das Hashfragment am Ende der URL wird niemals an den Server gesendet, 
sondern lediglich im Browser ausgewertet. Damit werden einzelne Teile der 
Webseite angesprochen, zum Beispiel der Kommentarbereich, sodass die An- 
zeige direkt zu diesem Abschnitt springen kann. 


Darüber hinaus können in Internetadressen noch weitere Angaben vorkommen, die 
für die Bearbeitung der Anfrage relevant sind, beispielsweise ein sogenannter Port 
oder Zugangsdaten. 

Zu beachten ist, dass einige Zeichen in URLs speziell kodiert werden müssen — 
das betrifft die für den Aufbau der URL reservierten Zeichen wie das Fragezei- 
chen, aber auch Umlaute. Diese Zeichen werden durch Prozentkodierung angege- 
ben, sodass aus dem Umlaut ä beispielsweise %C3%A4 wird. Für das Leerzeichen 
gibt es zwei Varianten, zum einen kann universell die Prozentkodierung %20 
verwendet werden, zum anderen ist innerhalb der Parameter das Pluszeichen + 
anzutreffen. 

Welche Rolle spielen URLs nun für Daten auf Webseiten? Im einfachsten Fall 
ist eine Ressource durch eine URL abrufbar und die entsprechende Webseite ent- 
hält Daten wie zum Beispiel eine eingebettete Tabelle mit Mitgliederzahlen politi- 
scher Parteien. Auch die gesamte Webseite kann Gegenstand der Analyse sein, 
wenn Blogs oder Nachrichtenseiten untersucht werden sollen. Zudem sind die 
URLs selbst für wissenschaftliche Analysen von Interesse, denn dadurch können 
die Verbindungen zu anderen Seiten verfolgt werden, um so Netzwerke zwischen 
Webseiten und Akteuren nachzuvollziehen. 


https://www.youtube.com/watch?v=dbTREHtu100#comments 
| | BE | | u t a 


Protokoll Domain Pfad Parameter Hashfragment 


Abb. 2.2 Die Bestandteile einer URL. (Quelle: eigene Darstellung) 
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Im Web findet sich eine Vielzahl an Webseiten, auf denen Daten beispielsweise 
in Tabellen- oder Listenform bereitgestellt werden: 


e Primärdaten finden sich insbesondere in Registern politisch-administrativer An- 
gebote. Eine Anlaufstelle für Listen von Unternehmen oder Vereinen ist in 
Deutschland das gemeinsame Registerportal der Länder (Ministerium der Justiz 
Nordrhein-Westfalen 2020). Auch das statistische Bundesamt stellt Daten zur 
Verfügung (Destatis 2022). 

« Berufsverbände und andere Interessenvertretungen listen häufig Daten über ihre 
Mitglieder auf. So lassen sich Medienangebote unter anderem über die Infor- 
mationsgesellschaft zur Feststellung der Verbreitung von Werbeträgern (IVW 
2022) oder über den Bundesverband Digitalpublisher und Zeitungsverleger 
(BDZV 2022) identifizieren. 

e Themenportale und Plattformen bieten häufig Uberblicksseiten über ihre Da- 
tenbestände an. Das reicht von Medienangeboten wie Fernsehserien oder Pod- 
casts über Fußballergebnisse bis zu Cocktailrezepten und App-Stores. 

e Aufbereitete Daten zu allen möglichen Themen finden sich auch in den Artikeln 
von Online-Enzyklopädien und Nachschlagewerken wie Wikipedia (Wikimedia 
Deutschland 2022) oder Fandom (Fandom 2022). 


Beim Zugang zu diesen Daten stößt man auf ganz unterschiedliche Rahmenbedin- 
gungen. Im einfachsten Fall sind alle Daten auf einer einzelnen über eine URL 
identifizierbare Seite enthalten, zum Beispiel in einer Wikipedia-Tabelle (siehe 
Abschn. 7.1). Häufig werden lange Listen aber auch über mehrere Seiten verteilt, 
wobei jede Seite eine eigene URL erhält. Beobachten Sie beim Surfen im Web die 
URLs: Typischerweise wird die Seite über einen Parameter wie page=5 angegeben 
und Protokoll, Domain sowie Pfad bleiben gleich. 

Die Paginierung, das heißt die Aufteilung auf mehrere Seiten, wird auf stark 
interaktiven Seiten jedoch nicht immer in der Adressleiste sichtbar, sondern die 
einzelnen Seiten werden beim Scrollen nach und nach über JavaScript und soge- 
nannte XMLHttpRequests nachgeladen, was die automatisierte Erhebung er- 
schwert. Eine weitere Hürde sind Datenbanken, in denen über Suchformulare re- 
cherchiert wird. Hier reicht die Angabe einer URL nicht aus, sondern die 
Suchbegriffe müssen auf anderem Weg an den Server übermittelt werden. Das 
HTTP-Protokoll sieht verschiedene Methoden der Interaktion mit einem Webser- 
ver vor: GET-Anfragen rufen eine URL auf, POST-Anfragen senden weitere Nutz- 
daten an diese Adresse und DELETE-Anfragen sind zum Löschen von Daten 
vorgesehen. Suchfunktionen bauen häufig auf POST-Anfragen auf. Da die Daten 
nicht über Links identifizierbar sind, können solche Inhalte auch nicht einfach über 
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Suchmaschinen wie Google gefunden werden, wofür sich der Begriff Deep Web 
eingebürgert hat. 

Welche Anfragen genau beim Surfen an einen Server geschickt werden, lässt 
sich gut mit der Entwicklerkonsole des Browsers nachvollziehen, die in den meisten 
Browsern mit der Taste F12 aktiviert wird (siehe das Beispiel zum Extrahieren von 
URLs in Abschn. 4.1). Der praktische Umgang mit den verschiedenen Formen von 
Webscraping wird in Abschn. 7.1 vermittelt. An dieser Stelle sind zunächst drei 
Hinweise auf ethisch-rechtliche Voraussetzungen wichtig. Erstens enthalten die 
Nutzungsbedingungen (engl. terms of services) von Webseiten und insbesondere 
von Social-Media-Plattformen Regelungen, mit denen sich die Betreiber eine auto- 
matisierte Datenerhebung häufig verbitten. Allerdings gehören insbesondere Such- 
maschinen wie Google, die solche Erhebungen systematisch durchführen, selbst- 
verständlich zum Web dazu, diese erfassen über automatisiertes Crawling die 
Inhalte von anderen Webseiten. Einen Einblick, welche Regelungen eine Webseite 
dafür vorsieht, können Sie sich über die robots.txt verschaffen. Diese Datei ist in der 
Regel auf jedem Server verfügbar und kann abgerufen werden, indem der Name an 
den Domainnamen angehängt wird, probieren Sie es zum Beispiel bei Facebook 
aus: https://www.facebook.com/robots.txt. Zweitens finden sich in der Datenschutz- 
grundverordnung und im Urheberrecht spezielle Regelungen für wissenschaftliche 
Zwecke, die zum Beispiel Textmining unter bestimmten Umständen explizit erlau- 
ben. Drittens sind ethische Abwägungen notwendig, insbesondere, wenn personen- 
bezogene Daten betroffen sind. Das bedeutet: Die Möglichkeiten und Grenzen au- 
tomatisierter Erhebungen müssen für jedes Projekt im Einzelfall reflektiert werden. 
Orientierung geben Ethikkodizes und Handreichungen (zum Beispiel RatSWD 
2019) und der rege Diskurs in der Forschungsliteratur (unter anderem Bruns 2019; 
Fiesler et al. 2020; Kotsios et al. 2019; Thelwall und Stuart 2006). 
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Das Extrahieren von Daten auf Webseiten baut zwar auf Standards im Web auf, 
erfordert jedoch mitunter eine detaillierte Auseinandersetzung mit der Struktur 
der Webseiten. Zudem ist Webscraping besonders von einigen Social-Media- 
Plattformen wie Facebook, Twitter oder YouTube laut deren Nutzungsbedingun- 
gen nicht erwünscht. Webseitenbetreiber bauen mitunter Hürden ein, um das 
Webscraping zu erschweren. Ein bereits vorstrukturierter Datenzugang ist aber 
bei vielen Plattformen mittels Application Programming Interfaces (APIs) mög- 
lich, über die Webseitenbetreiber kontrollieren, wer wie viele und welche Daten 
erheben kann. 
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Ganz allgemein legen Programmierschnittstellen fest, wie zwei Programme 
miteinander interagieren können (Jacobson et al. 2012, S. 5). Diese Schnittstel- 
len sind meistens nicht vorrangig für wissenschaftliche Datenanalysen einge- 
richtet worden, sondern für die Entwicklung von Drittanwendungen. Im Web 
wird auf diese Weise beispielsweise die Funktion umgesetzt, dass man sich auf 
anderen Seiten „Mit Google einloggen“ kann. Die API-Anbieter legen dazu 
Endpunkte und Parameter fest, auf die andere Programme, sogenannte API- 
Konsumenten, zugreifen. Ein Endpunkt ist einfach eine URL wie https: // 
api.twitter.com/2/users/. Diese URL wird um weitere Pfad- und 
Queryparameter ergänzt, mit denen etwa die öffentlichen Profilinformationen 
einzelner Nutzer:innen abgefragt werden. Pfadparameter wie show.json 
werden direkt an den Pfad angehängt, wohingegen Queryparameter wie 
?screen name=wissen lockt als Liste von Name-Wert-Paaren nach ei- 
nem Fragezeichen angegeben werden. Im Gegensatz zu einer normalen Web- 
seite geben APIs in der Regel nicht HTML, sondern deutlich leichter verarbeit- 
bare JSON-Formate zurück (Abb. 2.3 und Kap. 3). 

Eine API ist mehr als eine Software, sie ist ein Vertrag zwischen dem API- 
Anbieter und dem API-Konsumenten. Der Anbieter sichert damit zu, dass der Zu- 
griff über einen längeren Zeitraum bestehen bleibt und der Konsument sorgt letzt- 
endlich dafür, dass sich die Dienste des Anbieters in der Welt verbreiten. So wie 
sich Hersteller von USB-Sticks darauf verlassen, dass die USB-Buchse immer die 
gleichen Abmessungen haben, verlassen sich Anwendungsentwickler darauf, dass 
sich die Endpunkte und die Datenformate nicht ändern. Wichtig ist deshalb die 
genaue Dokumentation (engl. reference) der API, in der Endpunkte, Parameter und 
Rückgabeformate beschrieben werden. Die Betreiber stellen die Dokumentation 
mehr oder weniger übersichtlich zusammen, darüber hinaus kommen auch maschi- 
nenlesbare Standards wie OpenAPI' zum Einsatz. 

Viele für wissenschaftliche Analysen verwendete APIs bauen auf REST- 
Prinzipien (Fielding 2000) auf, das heißt, einzelne Ressourcen sind wie Webseiten 
über URLs ansprechbar. Einige APIs sind so weit standardisiert, dass die End- 
punkte immer auf die gleiche Art und Weise aufgebaut sind oder dass auch die 
Dokumentation der API über die API selbst abgerufen werden kann. Beispiels- 
weise folgen die zum Abgleich heterogener Datenbestände eingesetzten Reconci- 


! Siehe OpenAPI (2022; https://github.com/OAI/OpenAPI-Specification). 
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URL der Webseite: 
https: //twitter.com/wissen_lockt 


+ <div class="css-1dbjc4n r-18u37iz"> [flex] 
» <div class="css-1dbjc4n"> (=) </div> (Flex 
w <div class="css-1dbjc4n r-1joeaer"> (flex 
w<a class="css-4rbkuS css-18t9404 css-9@10a0 r-jwli3a r-1logt21 r-1gdexha r-ae@23e6 r-16dba41 r-ad9zex r-bcgeeo r-qvutce" 
title="3,119" href="/wissen _lockt/followers” dir="auto" role="link" data-focusable="true"> (event 
~ <span class="css-9810a0 css-16my486 r-1gdexha r-ww2ceb r-ad9zex r-bcqeeo r-gvutce"> 
<span class="css-9@10a0 css-16my486 r-igdexha r-ad9zex r-bcgeeo r-qvutc 3”: 
</span> 


+ <span class="css-9810a0 css-16my486 r-111h2gw r-Igdexha r-ad9zex r-bcqgeeo r-qebtce™> 
<span class="css-9810a30 css-16my4e6 r-igdexha r-adg 


</span> Anzahl der Follower eines 
</a> A E 
</div> Twitter-Accounts im HTML- 
</div> 


Quelltext 


URL des API-Endpunkts: 
https://api.twitter.com/1.1/users/show.json?screen_name=wissen_lockt 


"name": "Uni Greifswald", 
"screen name": "wissen lockt", 
"location": "Greifswald", 
"profile location": null, Anzahl der Follower eines 


"description": "Hier twittert di Accounts in der JSON-Antwort 
"protected": "Falsas 


der Twitter-API 
"friends count": "349", 
“Listed comme": "87%, 

"created at": "Fri Apr 30 13:06:27 +0000 2010", 


niGreifswald!\n 


"followers count": 


Abb. 2.3 Inhalt einer Webseite (HTML) und Antwort einer API (JSON) im Vergleich. 
(Quelle: eigene Darstellung) 


liation Service APIs? einer übergeordneten Spezifikation und können so in Tools 
wie OpenRefine? verwendet werden. OpenRefine ermöglicht es, über die Einbin- 
dung mehrerer APIs etwa eine Liste von Personen oder Unternehmen gleichzeitig 
mit einem Register politisch sanktionierter Akteure und mit Einträgen bei der 
Deutschen Nationalbibliothek abzugleichen.* Auch die im Semantic Web einge- 


? Siehe Entity Reconciliation Community Group (2022; https://reconciliation-api.github.io/ 
specs/0.1/). 


3Siehe Huynh (2022; https://openrefine.org/). 


*Für eine Liste von APIs, die in OpenRefine eingebunden werden können, siehe OpenRefine 
(2021; https://github.com/OpenRefine/OpenRefine/wiki/Reconcilable-Data-Sources). 
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setzten APIs folgen Standards wie Hydra oder stellen nach einem festgelegten 
Schema sogenannte SPARQL-Endpunkte bereit (siehe Kap. 3). Trotz dieser Stan- 
dardisierungen bleibt eine Auseinandersetzung mit den speziellen Endpunkten ei- 
ner API nicht aus. 

Wie auch auf Webseiten setzen viele Anbieter eine Registrierung oder sogar 
eine Vorabprüfung des geplanten Projekts voraus. Insbesondere bei Social- 
Media-Plattformen wie Facebook oder YouTube ist der Zugang stark kontrolliert. 
Dagegen setzen sich Organisationen wie die Open Knowledge Foundation dafür 
ein, vor allem Daten öffentlich-rechtlicher Einrichtungen offen zugänglich zu 
machen, zum Beispiel über das Portal OffeneRegister.de. Diese Bestrebungen 
werden unter dem Schlagwort Open Data auch politisch aufgegriffen, im Jahr 
2017 wurde vom Bundestag dazu das sogenannte Open-Data-Gesetz beschlossen 
(EGovG §12). 

Ein Verzeichnis von APIs und weitere Erläuterungen dazu, was eine API ist, 
finden Sie auf ProgrammableWeb.° Darüber hinaus lohnt es sich stets zu prüfen, ob 
eine Webseite oder Plattform eine API anbietet, auch wenn dies nicht auf den ers- 
ten Blick erkennbar ist. Die Übergänge zwischen Webseiten und APIs sind flie- 
Bend, weil Webanwendungen in vielen Fällen auf Ebene des dahinter liegenden 
Content Management Systems auf APIs aufbauen. So reicht es mitunter aus, einen 
Parameter in der URL einer Webseite zu ändern, um das Format von HTML auf 
JSON umzustellen (siehe die Übungsaufgabe am Ende des Kapitels). 

APIs können für vielfältige geistes- und sozialwissenschaftliche Zwecke ein- 
gesetzt werden. Erstens stellen Social-Media-Dienste APIs bereit, mit denen die 
auf der Plattform erzeugten Inhalte (Posts, Kommentare, ...) erhoben werden 
können. Daneben finden sich zweitens Dienste, die andere Daten sammeln und 
aggregieren, in Zitationsdatenbanken werden etwa die Literaturverweise von 
wissenschaftlichen Aufsätzen gesammelt. Drittens stellen Cloud-Computing- 
Anbieter wie Amazon, IBM, Google oder Microsoft über APIs Analysemöglich- 
keiten zum Beispiel zur automatisierten Bilderkennung bereit. Einen Überblick 
über einige APIs finden Sie in Tab. 2.1. Wie Sie selbst mit APIs arbeiten können, 
wird in Abschn. 7.2 erläutert. 


>Siehe Hydra W3C Community Group (2018; http://www.hydra-cg.com/drafts/use-cases/2. 
api-documentation.md). 


6 Siehe Berlind (2022; https://www.programmableweb.com/). 
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Tab. 2.1 Beispiele für Anbieter von Application Programming Interfaces (APIs) 


Anbieter 
Plattformdaten 
Facebook API 
MediaWiki Action API 
Twitter API 

YouTube Data API 


Aggregation von Daten 
Abgeordnetenwatch 


DWDS 


GovData 


Media Cloud 
OffeneRegister.de 
Open Citations 


Open Corporates 


Datenbestände bzw. mögliche Einsatzbereiche 


Posts und Kommentare auf Facebook (Meta 2022; https:// 
developers.facebook.com) 

Daten der Wikimedia-Projekte, z. B. Wikipedia (MediaWiki 
2022; https://www.mediawiki.org/wiki/API) 

Tweets und Informationen zu Nutzer:innen (Twitter 2022d; 
https://developer.twitter.com/) 

Videoinformationen und Kommentare auf YouTube (Google 
Developers 2022; https://developers.google.com/youtube/) 


Daten zu Wahlen und Abgeordneten (abgeordnetenwatch.de 
2022; https://www.abgeordnetenwatch.de/api) 
Worthäufigkeiten und Wörterbucheinträge des Digitalen 
Wörterbuchs der deutschen Sprache (Berlin-Brandenburgische 
Akademie der Wissenschaften 2022; https://www.dwds.de/d/ 
api) 

Amtliche Daten, beispielsweise zu den Kategorien 
Bevölkerung, Gesundheit, Verkehr, Justiz (GovData 2022; 
https://www.govdata.de/) 

Online-Berichterstattung (Media Cloud 2022; https:// 
mediacloud.org/) 

Unternehmensdaten aus dem Handelsregister (Datasette 2022; 
https://db.offeneregister.de/openregister) 

Zitationsdatenbank mit bibliografischen Informationen (Peroni 
und Daquino 2020; https://opencitations.net/index/api/v 1) 
Weltweit gesammelte Unternehmensdaten (OpenCorporates 
2022; https://api.opencorporates.com/) 


Datenaufbereitung oder -analyse 


Amazon Web Services: 
Rekognition 

Google Cloud Vision 
API 

IBM Watson Machine 
Learning 

Microsoft Cognitive 
Services 


Perspective API 


Bild- und Videoanalyse (Amazon Web Services 2022a; https:// 
aws.amazon.com/de/rekognition/) 

Erkennen von Objekten auf Bildern (Google 2022d; https:// 
cloud.google.com/vision) 

Bild- und Textklassifikation (IBM 2022; https://www.ibm.com/ 
de-de/cloud/machine-learning) 

Umwandlung von Audio- in Textdateien und Bilderkennung 
(Microsoft 2022a; https://docs.microsoft.com/en-us/azure/ 
cognitive-services) 

Analyse von Texten auf Hate-Speech (Perspective 2021; https:// 
www.perspectiveapi.com/) 


Quelle: Eigene Darstellung 
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2.3 Datenbanken und Datensätze 


Sowohl beim Besuchen von Webseiten als auch beim Einsatz von webbasierten 
APIs wird der Zugang zu Datenbanken über Schnittstellen vermittelt, die auf dem 
HTTP-Protokoll aufbauen. Jede Anfrage gibt dabei einen kleinen Ausschnitt der 
Datenbank zurück. Für wissenschaftliche Studien finden sich im Web auch voll- 
ständige Datenbanken. Die Vollständigkeit hat aber ihren Preis: Die Dateien kön- 
nen sehr groß werden und sind nach der internen Logik des Anbieters strukturiert. 
Ein eindrucksvolles Beispiel ist die Global Database of Events Language and To- 
ne.’ In diesem Projekt werden im Viertelstundentakt weltweit Nachrichtenseiten 
mit automatischer Textanalyse ausgewertet, aggregiert und die Ergebnisse werden 
zum Download zur Verfügung gestellt. Für ein Jahr umfasst die Datenbank über 
zwei Terrabyte. Die Arbeit mit solch umfangreichen Datensätzen setzt spezifische 
Kenntnisse zum Umgang mit Datenbanken und auf mehrere Computer verteilte 
Systeme (Cloud Computing, siehe Abschn. 6.4) voraus. Doch nicht immer muss es 
sich um solche Datenmengen handeln, auch viele kleinere Datenbanken sind für 
sozial- und geisteswissenschaftliche Analysen hilfreich. Linguistische Korpora mit 
Chats oder WhatsApp-Nachrichten oder auch Listen mit den Einwohnerzahlen al- 
ler Länder der Welt sind vergleichsweise klein. 

Zum Auffinden von Datensätzen eignen sich Suchmaschinen wie die Google 
Dataset Search oder Portale wie Kaggle (Tab. 2.2). Teilweise stellen Organisatio- 
nen und Online-Plattformen ihre Datenbanken ganz oder in Teilen zur Verfügung, 
etwa die Wikipedia oder auch die International Movie Database. Auch Facebook 
macht ausgewählte Teile seiner Datenbanken für Wissenschaftler:innen verfügbar, 
zum Beispiel die meistgeteilten Links (URL dataset). Der Zugang ist in diesem 
Fall stark restringiert und erfolgt über die Organisationen Social Science One® oder 
Crowdtangle.° Eine besonders herausfordernde Datensorte stellen organisationsin- 
terne Verhaltensdaten dar, sie umfassen beispielsweise Logdateien der Websei- 
tennutzung, das Kaufverhalten in Online-Shops, die Bibliotheksnutzung oder die 
Daten von Fitness-Trackern. Der Zugang ist auf Mitarbeitende in den entsprechen- 
den Organisationen bzw. Kooperationspartner beschränkt und nur mit starken da- 
tenschutzrechtlichen Schutzmaßnahmen möglich. 

Zudem werden die Forschungsdaten wissenschaftlicher Studien zunehmend in 
öffentlichen Repositorien abgelegt, um eine Nachnutzung und Nachprüfung zu er- 


"Siehe Leetaru (2021; https://gdeltproject.org/). 
8 Siehe Harvard University (2022b; https://socialscience.one/). 
? Siehe Meta (2021; https://www.crowdtangle.com/). 
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Tab. 2.2 Beispiele für online verfügbare Datenbanken 


Suchmaschinen, Repositorien und Verzeichnisse 


AMiner 

CLARIN Virtual 
Language Observatory 
GESIS 

Google Dataset Search 
Google Public Data 
Harvard Dataverse 


ICPSR datasets 


Kaggle 


Networkrepository 


OSF 


Datensätze für soziale Netzwerkanalysen 

(CKCEST 2022; https://cn.aminer.org/data-sna) 
Suchmaschine für Sprachdaten (CLARIN 2022; https://vlo. 
clarin.eu/) 

Repositorium für sozialwissenschaftliche Forschungsdaten 
(GESIS 2022; https://search.gesis.org) 

Suche nach öffentlichen Datensätzen (Google 2022f; https:// 
datasetsearch.research.google.com) 

Verzeichnis mit Datensätzen (Google 2014; https://www. 
google.com/publicdata/directory) 

Repositorium für Forschungsdaten (Harvard University 
2022a; https://dataverse.harvard.edu/) 

Repositorium für Forschungsdaten (University of Michigan 
2022; https://www.icpsr.umich.edu/) 

Anlaufstelle für die Data-Science-Community, hostet eine 
Vielzahl an Datensätzen (Kaggle 2022; https://www.kaggle. 
com/) 

Repositorium mit wissenschaftlichen Netzwerkdaten (Rossi 
und Ahmed 2022; http://networkrepository.com/) 
Repositorium für Forschungsdaten (Center for Open Science 
2022; https://osf.io/) 


Beispiele für kuratierte Datensätze und Korpora 


Blog Authorship Corpus 


ConvoKit Datasets 


COVID-19 Weibo Data 


DeReKo 


DiDi-Korpus 


Blog-Posts auf blogger.com, sortiert nach Alter und 
Geschlecht der Autor:innen (Schler et al. 2005; https://www. 
kaggle.com/datasets/rtatman/blog-authorship-corpus). 
Datensätze zur Analyse von Gesprächsverläufen und 
Dialogen 

(Chang et al. 2020; https://github.com/CornellNLP/ 
Cornell-Conversational-Analysis-Toolkit) 

Zensierte und unzensierte chinesische Weibo-Nachrichten zu 
COVID-19 (Fu & Zhu 2020; https://doi.org/10.6084/m9. 
figshare. 12199038) 

Deutsches Referenzkorpus, weltweit größte Sammlung von 
Korpora mit belletristischen, wissenschaftlichen und 
journalistischen Texten der deutschen Gegenwartssprache 
(Kupietz et al. 2010; https://www.ids-mannheim.de/digspra/ 
kl/projekte/korpora/). 

Anonymisierte Kommentare und Chat-Nachrichten von 
Südtiroler Facebook-Nutzer:innen (Frey et al. 2019; https:// 
clarin.eurac.edu/repository/xmlui/handle/20.500.12124/7) 


(Fortsetzung) 
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Beispiele für kuratierte Datensätze und Korpora 


Dortmunder Chat-Korpus 


D-Place 


FiveThirtyEight Russian 
Troll Tweets 


GDELT 


IMDb 


MoCoDa2 


Regesta Imperii 


Seshat 


Trump Tweets 


UCDP GED 


useNews 


Chatprotokolle aus professionellen Kontexten und dem 
Freizeitbereich (Beißwenger 2013; Zugang über https://vlo. 
clarin.eu/) 

Database of Places, Language, Culture, and Environment. 
Ökonomische, soziodemographische und klimatische 
Bedingungen verschiedener Gesellschaftsformen zur 
Beschreibung der Menschheitsgeschichte (Jahre 1600-1990) 
(Kirby et al. 2016; https://d-place.org/) 

Tweets von Accounts, die mit der Internet Research Agency 
(IRA) in Verbindung standen. Die russische IRA wird mit 
Einflussnahmen auf den amerikanischen Wahlkampf im Jahr 
2016 in Verbindung gebracht (Linvill und Warren 2018; 
https://github.com/fivethirtyeight/russian-troll-tweets/) 
Laufend aktualisierte Datenbank mit weltweiter 
Berichterstattung. Die Texte durchlaufen eine Vielzahl 
automatisierter Inhaltsanalysen, zum Beispiel um Ereignisse 
zu extrahieren (Leetaru 2021; https://gdeltproject.org/) 
Datenbank zu Filmen und daran beteiligten Personen 
(Internet Movie Database 2022; https://www.imdb.com/ 
interfaces/) 

Mobile Communication Database, enthält WhatsApp- 
Konversationen, die von Nutzer:innen gespendet wurden 
(Beißwenger et al. 2020; https://db.mocoda2.de/) 

Herrscher- und Papsturkunden von den Karolingern bis hin 
zu Maximilian I. (751-1519) (Akademie der Wissenschaften 
und der Literatur Mainz 2022; http://www.regesta-imperii. 
de/) 

Historische Daten zur sozialen und politischen Organisation 
menschlicher Gesellschaften bis zur industriellen Revolution 
(Evolution Institute und Seshat Project 2021; http:// 
seshatdatabank.info/) 

Alle Tweets von Donald Trump (bis 20. Januar 2020) (Reese 
2020; https://www.kaggle.com/austinreese/trump-tweets) 
Weltweite Beobachtung politischer Konflikte mit Angaben 
zu Todesfällen und beteiligten Akteuren (Uppsala Conflict 
Data Program 2016; https://ucdp.uu.se/) 

Datensatz zur Verbreitung von Nachrichtenartikeln, enthält 
eine Kombination von Befragungsdaten, Metadaten von 
Artikeln und Daten zu Interaktionen auf Social-Media- 
Plattformen (Puschmann und Haim 2021; https://osf.io/ 
uzca3/) 


(Fortsetzung) 
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Tab. 2.2 (Fortsetzung) 


Quellen für Trainingsmaterial 

GermEval Veranstaltungen, bei denen im Rahmen von Aufgaben 

SemEval Datensätze zur automatischen Klassifikation bereitgestellt 
werden, etwa zu Offensive Language oder Sentiment- 
Analyse (GermEval 2019; https://germeval.github.io/; 
SemEval 2022; https://semeval.github.io/) 

Oxford Text Archive Literarische und linguistisch aufbereitete Texte, zum Beispiel 
zur Entwicklung automatischer Textanalyse (University of 
Oxford 2021; https://ota.bodleian.ox.ac.uk/repository/xmlui/) 

TIGER Korpus Textkorpus mit etwa 900.000 annotierten Token aus deutschen 
Nachrichtenartikeln (Brants et al. 2004; https://www.ims. 
uni-stuttgart.de/forschung/ressourcen/korporaftiger/). 

Twitter Event Datasets Sammlung von 30 unterschiedlichen Twitter-Datensätzen 
(2012-2016) zur Überprüfung der Replizierbarkeit von 
Twitter-Studien (Zubiaga 2018a; 2018b; https://figshare. 
com/articles/Twitter_event_datasets_2012-2016_/5100460) 


UCI Machine Learning Trainingsdaten und Referenzdatensätze unter anderem für die 

Repository Bild- und Texterkennung (Dua & Graff 2019; https://archive. 
ics.uci.edu/https://archive.ics.uci.edu/ml/datasets.php) 

VoxCeleb Ton- und Videoaufnahmen zum Beispiel fiir die Entwicklung 


von Sprach-, Gesichts- und Emotionserkennung (Visual 
Geometry Group 2022; http://www.robots.ox.ac.uk/-vgg/ 


data/voxceleb/) 
Wikipedia: List of datasets | Auflistung von Trainingsdatensätzen für das Machine 
for machine-learning Learning, unter anderem zur Bilderkennung (Gesichts- 
research Objekt-, Handschrifterkennung) und Texterkennung 


(Rezensionen, Nachrichten, Dialoge etc.) (Wikipedia 2022a; 
https://en.wikipedia.org/wiki/List_of_datasets_for_machine- 
learning_research) 


Quelle: Eigene Darstellung. Beachten Sie, dass die Datenqualität sehr unterschiedlich aus- 
fällt, und vor der Verwendung der Daten eingeschätzt werden sollte 


möglichen (Sekundärdatenanalyse). Eine zentrale Anlaufstelle für sozialwissen- 
schaftliche Daten ist in Deutschland die GESIS. Mit dem Rückenwind der Open- 
Access-Bewegung fordern auch internationale Zeitschriften von ihren Autor:innen 
immer häufiger, dass die Daten verfügbar gemacht werden. Eine globale Plattform 
dafür betreibt die Open Science Foundation, aber auch einzelne Universitäten bie- 
ten eigene Repositorien an. Zudem wird in Deutschland momentan mit viel Auf- 


10 Auch Sie selbst können Ihre Daten und Auswertungsskripte dort verfügbar machen. Wenn 
Sie selbst im Kontext von Qualifikationsarbeiten (B.A., M.A., Promotion) forschen, denken 
Sie darüber nach! 


46 2 Datenquellen 


wand eine nationale Forschungsdateninfrastrukur aufgebaut,'' über die Forschungs- 
daten nachhaltig nutzbar gemacht werden sollen. Die Anforderungen an solche 
wissenschaftlichen Datenbestände werden mit den FAIR-Prinzipien beschrieben — 
Findability, Accessibility, Interoperability und Reusability (Wilkinson et al. 2016). 

Kuratierte Datensätze zu spezifischen Themen gehen teilweise auf wissen- 
schaftliche Forschungsprojekte zurück oder werden von wissenschaftsnahen Orga- 
nisationen für die Grundlagenforschung erstellt. Hierzu zählen beispielsweise von 
CLARIN bereit gestellte Sprachdaten, die von D-Place zusammengetragenen 
Strukturdaten zu menschlichen Gesellschaftsformen oder die vom UCDP erfassten 
Daten zu politischen Konflikten. Im Social-Media-Bereich sammelt beispielsweise 
Weiboscope Datensätze, mit denen sich die chinesische Zensur untersuchen lässt 
(Weiboscope 2022; zum Beispiel zu COVID-19, siehe Fu und Zhu 2020). Im Rah- 
men geisteswissenschaftlicher Grundlagenforschung werden insbesondere histori- 
sche Daten in Langzeitprojekten erschlossen, die häufig an den Akademien der 
Wissenschaften angesiedelt sind. Diese Projekte verweisen auf eine lange Tradi- 
tion, so hat die Aufarbeitung von königlichen und päpstlichen Urkunden des Mit- 
telalters im Projekt Regesta Imperii bereits im Jahr 1829 begonnen (Akademie der 
Wissenschaften und der Literatur Mainz 2022). Regelmäßig werden in geisteswis- 
senschaftlichen Projekten gedruckte Editionen veröffentlicht und die erschlosse- 
nen Daten werden zunehmend online in Datenbanken zur Verfügung gestellt. 

Diese Datenbanken sind im Wesentlichen an zwei unterschiedlichen Zielstel- 
lungen ausgerichtet. Erstens erlauben einige Datenbestände inhaltliche Analysen, 
etwa um das Twitter-Verhalten von Donald Trump oder die Debatten im deutschen 
Bundestag auszuwerten. Zweitens stellen einige Projekte Daten als Trainingsma- 
terial für Machine-Learning-Verfahren bereit. Hier geht es darum, automatisierte 
Inhaltsanalysen zu entwickeln. Dazu gehören auch Korpora mit Videos für die Ent- 
wicklung automatischer Emotionserkennung oder Korpora mit Rezensionen für 
die Erkennung positiver und negativer Bewertungen. Ergänzend zu den inhaltli- 
chen Daten sind diese Korpora manuell annotiert, das bedeutet zu jedem Video ist 
eine zusätzliche Angabe der Emotion oder zu jeder Rezension eine von Menschen 
vorgenommene Bewertung vorhanden. In jedem Fall sollten Sie sich genau mit der 
Qualität der Daten beschäftigen und darauf achten, dass deren Entstehung und 
Auswahl nachvollziehbar sind. So wie Sie keine Texte zitieren sollten, in denen die 
Aussagen nicht belegt oder begründet sind, sind auch undokumentierte Daten für 
wissenschaftliche Analysen ungeeignet. 

Zum Erstellen annotierter Daten greifen einige Wissenschaftler:innen und Un- 
ternehmen auf Crowdsourcing zurück. Besonders bekannt, aber auch umstritten, 
ist zur Rekrutierung von Kodierer:innen für einfache Aufgaben die Plattform Ama- 


1 Siehe NFDI (2022; https://www.nfdi.de). 
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zon Mechanical Turk.'* Annotierte Datensätze werden mitunter auf Veranstaltun- 
gen zum gemeinsamen Lernen (Hackathon oder Datathon genannt) oder bei Wett- 
bewerben in Kooperation mit Unternehmen ausgegeben oder erstellt. Auf 
Plattformen wie Kaggle werden laufend Wettbewerbe zur Analyse von Datensät- 
zen ausgeschrieben. Für die Analyse privater Kommunikation, etwa WhatsApp- 
Konversationen, sind Wissenschaftler:innen auf Datenspenden angewiesen (siehe 
zum Beispiel Beißwenger et al. 2020; Araujo et al. 2021). 

Zusammenfassend unterscheiden sich die verschiedenen Datenzugänge also 
erstens danach, ob sie heterogene Datenbestände sammeln und durchsuchbar 
machen oder ob sie sich auf einzelne Themenbereiche beschränken. Zweitens wer- 
den Daten speziell für wissenschaftliche Zwecke erzeugt oder treten als Nebenpro- 
dukt von Handlungen auf. Die Verbreitung von informationstechnischen Systemen 
bringt es mit sich, dass umfangreiche Daten über menschliches Verhalten anfallen, 
mit denen alte, aber auch ganz neue Fragestellungen bearbeitet werden können. 
Drittens sind einige Datensätze nicht in erster Linie für inhaltliche Fragestellungen 
ausgelegt, sondern als Trainingsmaterial für die Methodenentwicklung. Viertens 
werden Datensätze nicht nur von wissenschaftlichen Einrichtungen mit entspre- 
chenden Qualitätssicherungsverfahren, sondern auch von kommerziellen Anbie- 
tern bereit gestellt. Da letztere an marktwirtschaftlichen Prinzipien orientiert sind, 
kann es zu Interessenskonflikten kommen — die Datenqualität sollte vor der Ver- 
wendung besonders gründlich eingeschätzt werden. In Tab. 2.2 finden Sie einige 
Beispiele für die verschiedenen Arten von Datenquellen — verschaffen Sie sich 
selbst einen Eindruck davon, wie diese Daten einzuschätzen sind und begeben Sie 
sich gegebenenfalls auf die Suche nach weiteren Datensätzen! 


Übungsfragen 


Was unterscheidet Webscraping von der Datenerhebung über APIs? 

Aus welchen Bestandteilen besteht eine URL? 

Besuchen Sie eine Webseite und prüfen Sie, ob eine API bereit gestellt wird! 

Schauen Sie sich die Dokumentation des Endpunkts „users“ der Twitter-API 

an. Suchen Sie dort die Bestandteile der verwendeten URL heraus: Wie lau- 

ten Domain, Pfad und Parameter? 

5. Was versteht man unter Open Data? 

6. Suchen Sie einen im Internet zum Download angebotenen Datensatz und 
schätzen Sie die Qualität der Daten ein. Was spricht gegen die wissenschaft- 
liche Verwendung der gefundenen Daten, was spricht dafür? 

7. Worin unterscheiden sich die Datenbanken von wissenschaftlichen Reposi- 

torien und die Datenbanken von Social-Media-Plattformen? 


B opi I 


12? Siehe Amazon Mechanical Turk (2018; https://www.mturk.com/). 
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Zusammenfassung 


Das Kapitel fiihrt in Datenformate ein, die Ihnen bei der Arbeit mit Computati- 
onal Methods begegnen werden. Sie lernen, wie die wichtigsten Datenformate 
aufgebaut sind, welche Arten von Datenbanken es gibt und worin der Unter- 
schied zwischen Datenformaten und Datenmodellen besteht. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit @ verweisen. 


Schlüsselwörter 


Datentypen - Markdown - Zeichenkodierung - CSV - HTML und XML - JSON - 
SQL und NoSQL - Datenmodell - Resource Description Framework (RDF) - 
Semantic Web 


Das Wort ‚Daten‘ ist eines der meistverwendeten Wörter in diesem Buch. Etymo- 
logisch leitet sich die Bezeichnung von dem lateinischen ‚datum‘ ab, was als ‚ge- 
geben‘ übersetzt werden kann (Kluge 2002, S. 181). Als Datum werden in der ur- 
sprünglichen Bedeutung die Zeit- und Ortsangaben auf Schriftstücken bezeichnet 
(Kluge 2002, S. 181). Diese Verwendungsweise findet sich auch heute noch, die 
Extension des Begriffs, das heißt der Umfang als Datum bezeichneter Gegen- 
stände, hat sich aber stark ausgeweitet. Je nach Perspektive werden darunter etwa 
Zahlen, Beobachtungen oder Bits verstanden (Ballsun-Stanton 2010). Vor allem 
das letzte Verständnis, Bits als Kodierung von Information, findet sich im Kontext 
der Informatik wieder. In diesem Sinne ist der Begriff sogar in einer ISO-Norm! 
standardisiert und wird dort definiert als „A reinterpretable representation of infor- 
mation in a formalized manner suitable for communication, interpretation, or 
processing“ (ISO/IEC 2382-1, siehe ISO 2015). Ein wichtiges Merkmal ist dabei, 
dass es sich um Repräsentationen von etwas handelt. Daten stehen zum Beispiel 
für das Verhalten von Menschen oder allgemeiner für Informationen.” Dabei kann 


'Die International Organization for Standardization (ISO) erarbeitet internationale Normen 
für viele Bereiche, unter anderem informationstechnische Normen. 


? Die Verbindung von Daten, Informationen und Wissen wird häufig als Pyramide modelliert, 
wobei von einem zunehmenden Bedeutungsgehalt ausgegangen wird. Aus Sicht der Infor- 
matik bestehen Analysen daraus, dass Informationen aus Daten extrahiert werden, auf denen 
dann handlungsleitendes Wissen basiert. Diese Vorstellung ist jedoch zu hinterfragen, da 
Informationen aus sozialwissenschaftlicher Sicht nicht in Daten enthalten sein können, son- 
dern lediglich zugeschrieben werden. Zur DIKW-Pyramide (data, information, knowledge, 
wisdom) siehe Ackoff (1989) und Rowley (2007). 
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es verschiedene Repräsentationen für die gleichen Dinge geben, das heißt, Daten 
können unterschiedlich angeordnet bzw. formatiert sein (® Repositorium). In die- 
sem Kapitel werden zunächst verschiedene Datentypen und dann verbreitete Da- 
tenformate vorgestellt. Für eine Repräsentation in Tabellenform eignet sich das 
CSV-Format. Sollen große Datenbestände verwaltet werden, kommen häufig 
SQL-Datenbanken zum Einsatz, in denen mehrere Tabellen enthalten sein können. 
Im Prinzip kann fast jede Datenstruktur in Tabellenform gebracht werden, das ist 
aber nicht immer gut handhabbar. Eine höhere Flexibilität in Bezug auf die Struk- 
turierung bieten HTML und XML für Textdaten oder JSON für Daten, die aus 
einzelnen Werten zusammengesetzt sind. Auch solche flexiblen Datenbestände 
werden bei entsprechendem Umfang in Datenbankmanagementsystemen vorge- 
halten, die dann als NoSQL-Datenbanken bezeichnet werden. 

Die genannten Datenformate geben kaum Vorgaben darüber, welche Bedeutung 
die Daten haben. Die Bedeutung wird erst mit Datenmodellen festgelegt, in denen 
die Verwendung bestimmter Datenelemente inhaltlich definiert ist. So kann man 
definieren, dass zu einer Personenbeschreibung ein Name, ein Geburtsdatum und 
ein Wohnort gehören. Insbesondere im World Wide Web besteht der Bedarf, solche 
Merkmale zu standardisieren, um die Datenbestände verschiedener Anbieter ver- 
knüpfen zu können. Die Idee wird Semantic Web genannt und das zugrundelie- 
gende Datenmodell nennt sich Ressource Description Framework (RDF). Dieses 
Modell — und verschiedene dazugehörige Datenformate — werden am Ende des 
Kapitels vorgestellt. 
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Daten sind in ihrer kleinsten Einheit Zeichen, die von Computern verarbeitet wer- 
den. Diese Zeichen haben verschiedene Datentypen, sie sind zum Beispiel Zahlen 
(integer, double, float), Zeichenketten (string, character) oder Wahrheitswerte 
(boolean). Menschen können meistens auf den ersten Blick erkennen, um welchen 
Datentyp es sich handelt, Computern muss das hingegen erst gesagt werden. So 
könnte ein Programm eine 13 sowohl als die ganze Zahl 13, als die Dezimalzahl 
13,0 oder als eine Abfolge von einzelnen Buchstaben „1“ und „3“ erkennen. Diese 
Unterscheidung ist wichtig, da je nach Datentyp unterschiedliche Operationen 
möglich sind. So kann man mit Zahlen beispielsweise rechnen. Zeichenketten wie 
das Wort „Datum“ kann man zwar nicht multiplizieren oder dividieren, stattdessen 
könnte man in dem Wort aber beispielsweise nach Vokalen suchen. 
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Einzelne Werte mit solchen grundlegenden, atomaren Datentypen werden ma- 
thematisch als Skalare bezeichnet. Atomare Datentypen können wiederum zu 
komplexeren Datentypen zusammengesetzt werden. Eine Liste gleichartiger Ele- 
mente wird Vektor genannt, zum Beispiel eine Liste mit Datumsangaben. Fasst 
man mehrere solcher Vektoren zusammen, entsteht eine Matrix (Abb. 3.1). Für 
viele datenanalytische Fragestellungen eignen sich Matrizen, wenn etwa jede Zeile 
für eine Person steht und in den Spalten die Eigenschaften der Personen festgehal- 
ten sind. Eine Matrix setzt sich also aus einer Liste mit Vektoren zusammen, je 
nach Perspektive aus einer Liste mit Zeilen oder aus einer Liste mit Spalten. 

Matrizen im engeren Sinn enthalten nur einen einzigen Datentyp, zum Beispiel 
nur Jahreszahlen (Ganzzahl) oder nur Geburtsorte (Zeichenkette). Um mehrere 
Datentypen gleichzeitig zu erfassen, kommen in verschiedenen Programmierspra- 
chen noch eine ganze Reihe weiterer komplexer Datentypen vor. Sehr flexibel sind 
Diktionäre, die Name-Wert-Paare in Listen erfassen und tief verschachtelt sein 
können, das heißt ein Wert kann wiederum ein Diktionär sein. Für die Datenanalyse 
wird zudem meist mit Tabellen gearbeitet, die ähnlich wie eine Matrix aus Zeilen 
und Spalten bestehen, in den verschiedenen Spalten aber ganz unterschiedliche 
Datentypen enthalten können. Beispiele für atomare und komplexe Datentypen in 
den Programmiersprachen R und Python finden sich in Tab. 3.1. 

Immer wenn etwas nicht wie erwartet funktioniert, empfiehlt es sich, die Daten- 
typen zu überprüfen. Besonders wichtig ist es, bei der Programmierung und Daten- 
analyse zu unterscheiden, wann es sich um Zeichenketten (mit Anführungszei- 


Skalar: 
einzelner Wert 


Vektor: 
Liste aus Skalaren 


Matrix: 
Liste aus Vektoren 


Abb. 3.1 Aufbau von Matrizen. (Quelle: eigene Darstellung) 


3.1 Datentypen 57 


chen), Zahlen (ohne Anführungszeichen) oder festgelegte Bezeichnungen bzw. 
Eigennamen von Datenobjekten (ohne Anführungszeichen) handelt. Dabei können 
nicht beliebige Anführungszeichen eingesetzt werden, sondern es ist in jeder Spra- 
che festgelegt, wann einfache oder doppelte Zeichen verwendet werden müssen. 
Insbesondere typografische Anführungszeichen „“ wie sie in Textprogrammen 
automatisch bei der Eingabe entstehen — in Deutschland erst Anführungszeichen 
unten, dann oben - funktionieren nicht, darauf sollte beim Kopieren von Daten und 
Quelltexten geachtet werden. 


Tab. 3.1 Beispiele für atomare und zusammengesetzte Datentypen 


Beispiel und 
Beispiel und Bezeichnung in 
Datentyp | Beschreibung Bezeichnung in R Python 


Atomare Datentypen 


Zahlen Ganze Zahlen (numeric) 1884L 1884 
integer int 

Dezimal- Zahlen mit 1.6 1.6 

zahlen Nachkommastellen (numeric) | double float 

Wahrheits- | Logische Werte (boolean) TRUE, FALSE TRUE, FALSE 

werte logical bool 

Zeichen- Ketten von Buchstaben, "Anna" "Anna" 

ketten Zahlen oder Sonderzeichen character str 
(string) 

Zusammengesetzte Datentypen 

Vektor Liste von Elementen des c(1,2,3) np.array([1,2,3]) 
gleichen Typs 

Liste Ansammlung von Elementen | list Anna',1884) ['Anna', 1884] 
mit unterschiedlichen Typen 

Tupel Zusammensetzung von tuple('Anna',25) ('Anna',25) 
Elementen mit 
unterschiedlichen Typen 

Diktionär | Name-Wert-Paare (dict, list( Name'='Anna', {'Name': 'Anna', 
dictionary) ‘Jahr'=1884) ‘Jahr': 1884} 

Matrix Liste von Vektoren bzw. matrix(1:4, nrow=2) | np.array([1,2],[3,4]) 
zweidimensionales Array 

Tabelle Datensatz in Tabellenform, data.frame pd.DataFrame 
bestehend aus Zeilen, Spalten | tibble 
und Zellen 


Quelle: Eigene Darstellung 
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3.2 Textformate (MD) 


Viele der im Folgenden besprochenen Datenformate sind einfache Textdateien, die 
mit einem Editor wie Atom oder Notepad++ geöffnet und bearbeitet werden kön- 
nen (siehe Kap. 1). So wie verschiedene natürliche Sprachen — Deutsch, Englisch, 
Farsi — durch eine Syntax, Vokabulare und eine bestimmte Aussprache geprägt 
sind, legen die Datenformate jeweils fest, welche Zeichen wie kodiert werden. Da- 
mit ein Computerprogramm die Dateien auch versteht, sind über alle Datenformate 
hinweg zwei Besonderheiten zu beachten. 

Erstens sind nicht alle Zeichen sichtbar. Als Zeilenumbruch werden in Textda- 
teien unter Windows zwei unsichtbare Zeichen verwendet, das Carriage Return 
(CR; Wagenrücklauf) gefolgt vom Line Feed (LF). Diese Zeichen sind Steuerzei- 
chen und simulieren eine Schreibmaschine, bei der am Ende einer Zeile zunächst 
das Papier nach rechts geschoben wurde, sodass sich die Schreibposition am Zei- 
lenanfang befindet. Dann wurde die Walze mit dem Papier zu einer neuen Zeile 
weitergedreht. 

Mitunter werden Zeilenumbrüche durch ihre ASCIP-Werte #13 für Carriage 
Return und #10 für Line Feed dargestellt, manchmal auch durch die Escape- 
Sequenzen \r für Carriage Return und \n für Line Feed. In Unix-Systemen wie 
macOS oder Linux wird ausschließlich der Line Feed verwendet. In älteren 
Mac-OS-Varianten war dagegen das Carriage Return gebräuchlich. Die verschie- 
denen Möglichkeiten sind eine häufige Fehlerquelle beim Einlesen von Datensät- 
zen. Im Zweifelsfall empfiehlt es sich, alle Zeilenumbrüche zunächst mit einem 
Texteditor durch ein einzelnes Line-Feed-Zeichen zu ersetzen. Um in einem Text- 
editor zu sehen, welche Zeichen in einer Datei als Zeilenumbruch fungieren, kön- 
nen Sie zum einen die Steuerzeichen einblenden, häufig steht dafür eine mit dem 
Absatzsymbol J gekennzeichnete Schaltfläche zur Verfügung. Die Zeilenumbrüche 
sollten nun am Ende jeder Zeile sichtbar markiert sein. Zum anderen wird in 
Texteditoren üblicherweise das Format der Zeilenumbrüche in der Statusleiste auf- 
geführt und kann mit einem Klick geändert werden.’ 


3Der American Standard Code for Information Interchange ist im Jahr 1963 entstanden und 
umfasst 128 Zeichen, die bis heute die Grundlage für fast alle computerbasierten Zeichen- 
systeme bilden. 

*In Notepad++ und Atom ist beispielsweise in der unteren Leiste neben der Zeichenkodie- 
rung der Zeilenumbruch eingeblendet — „Windows (CR LF)“ oder „Macintosh (CR)“. Mit 
einem Links- bzw. Rechtsklick können Sie das Format ändern. Alternativ ist in Atom die 
Funktion LINE ENDING SELECTOR: CONVERT To [...] über die Kommando-Palette (Tasten- 
kombination Strg bzw. Cmd + Shift + P) erreichbar. 
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Zweitens muss die Kodierung der verschiedenen lokalen und internationalen 
Zeichen - arabische Schriftzeichen, chinesische Glyphen, deutsche Umlaute, fran- 
zösische Akzente oder auch Emojis — beachtet werden. Als Zeichenkodierung 
(engl. encoding) wird, wenn keine Umlaute oder andere Sonderzeichen enthalten 
sind, normalerweise das ASCII-Format verwendet. Für Umlaute oder andere Son- 
derzeichen kommen je nach Sprache unterschiedliche Erweiterungen dieses For- 
mats zur Anwendung, die zum Teil mit verwirrenden Bezeichnungen ver- 
sehen sind. Besonders verbreitet sind ISO-8859-1 (auch ANSI genannt) sowie 
Windows-1252 (auch Latin-1 oder CP1252 genannt). 

Mit ANSI lassen sich bis zu 256 verschiedene Zeichen darstellen. Immer mehr 
setzt sich allerdings Unicode durch. Dieser Standard ist mit der Idee verbunden, 
alle Zeichen der Welt zu erfassen, enthält zum Beispiel auch Emojis und fortlau- 
fend werden Anträge auf neue Emojis gestellt (Unicode 2021). Um diese Vielfalt 
vollständig abzubilden, werden mehrere Bytes benötigt, das entsprechende 
UTF-16-Format verwendet deshalb zwei Bytes und UTF-32 sogar vier Bytes je 
Zeichen. Als platzsparende Variante kommt meistens UTF-8 zum Einsatz und das 
aus gutem Grund: Mit UTF-8 lässt sich nicht nur jedes bislang über Unicode stan- 
dardisierte Zeichen sehr platzsparend kodieren. Es ist zudem abwärtskompatibel, 
denn wenn keine Sonderzeichen benötigt werden, dann ist die Kodierung identisch 
zum ASCII-Format.’ 

Bei UTF-8 wird für die ASCII-Zeichen ein Byte verwendet, für alle weiteren 
Zeichen dagegen zwei Bytes. Immer wenn zwei Bytes verwendet werden, gibt es 
wiederum verschiedene Möglichkeiten, welches Byte als erstes angegeben ist. Im 
Zweifelsfall wird dies durch eine Byte Order Mark (BOM) gekennzeichnet.° Dabei 
handelt es sich um ein Zeichen ganz am Anfang der Textdatei. Einige CSV-Dateien 
enthalten dieses Zeichen, andere nicht. Werden Sonderzeichen also in einer geöff- 
neten Datei nicht richtig angezeigt — wenn etwa anstelle von „Hüte“ ein „HÄlte“ 
erscheint — lohnt es sich, die Zeichenkodierung zu überprüfen und gegebenenfalls 
mit einem Texteditor umzustellen. 

In Textdateien können beliebige Inhalte festgehalten werden, nicht nur vor- 
strukturierte Daten, sondern zum Beispiel auch eigene Notizen. Diese Dateien kön- 
nen unkompliziert mit anderen geteilt werden, da nahezu auf jedem Computer 


>Für ASCII werden sieben Bit verwendet, ein achtes Bit kennzeichnet dann, ob ASCII oder 
ein erweiterter Zeichensatz wie ANSI oder UTF-8 vorliegt. Deshalb sind alle ASCII-Zeichen 
im ANSI-Zeichensatz und auch in UTF-8 enthalten. 

é Bei UTF-16 unterscheidet man deshalb UTF-16LE (little endian) und UTF-16BE (big en- 
dian), damit sind die beiden unterschiedliche Reihenfolgen der zwei Bytes gemeint. 
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mindestens ein Programm zum Bearbeiten von Textdateien vorhanden ist. Aller- 
dings sind darin normalerweise keine Formatierungen wie Fettungen oder Kursi- 
vierungen möglich. Um dennoch zumindest grundlegende Formatierungen vorneh- 
men zu können, hat sich in vielen Bereichen das Format Markdown etabliert: 


e Überschriften beginnen mit einer Raute: 
# Überschrift 1 
## Überschrift 2 

e Aufzählungen werden durch Bindestriche realisiert: 
- Erster Punkt 
- Zweiter Punkt 

e Text wir kursiv geschrieben, indem er in Sternchen eingeschlossen wird: 
*kursiver Text* 

e Für fetten Text werden zwei Sternchen verwendet: 

**fetter Text** 

e Code wird in Backticks eingeschlossen, um darin zum Beispiel Sternchen oder 
Bindestriche verwenden zu können. Backticks sind rückwärtsgerichtete Anfüh- 
rungszeichen und auf der Tastatur etwas versteckt: 

"Quellcode im Text 

e Soll Quellcode über mehrere Zeilen gehen, dann werden zu Beginn und am 

Ende jeweils drei Backticks gesetzt: 


Code über 
mehrere Zeilen. 


Absätze werden durch eine Leerzeile erzeugt und aufpassen sollte man bei Zeilen- 
umbrüchen. Denn ein einzelner Zeilenumbruch wird nicht immer als Zeilenumbruch 
dargestellt. Zeilenumbrüche in Aufzählungen funktionieren beispielsweise nur 
dann, wenn die vorangegangene Zeile mit zwei Leerzeichen endet und der fol- 
gende Text mit zwei Leerzeichen eingerückt wird. Darüber hinaus sind viele wei- 
tere Formatierungen zur Darstellung von Links, Bildern oder Tabellen möglich. 
Eine Übersicht bieten Cheatsheets, die in großer Zahl im Internet zu finden sind.’ 
Während einfache Textdateien meistens mit der Endung .txt abgespeichert wer- 
den, sind Markdown-Dateien an der Endung .md zu erkennen. Typischerweise fin- 


"Siehe zum Beispiel Cone (2022; https://www.markdownguide.org/cheat-sheet/). 
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det sich beispielsweise in Git-Repositorien immer eine Datei readme.md, in der 
eine Einführung in das Repositorium gegeben wird. Auf der Webseite des Reposi- 
toriums werden die Markdown-Formatierungen dann automatisch in HTML 
umgeformt, sodass im Browser echte Listen, Kursivierungen oder Überschriften 
erscheinen. Schauen Sie sich einmal den Quelltext der readme-Datei im « Repo- 
sitorium und die Darstellung auf der Webseite an! 


3.3 Tabellenformate (CSV) 


Eines der am meisten verbreiteten Formate, um tabellarische Daten zu speichern, ist 
das CSV-Format. Hierbei handelt es sich um eine Textdatei, in der jede Zeile einen Fall 
enthält, zum Beispiel einen Kommentar auf einer Online-Plattform oder Angaben zu 
einer Person in einem Roman. Innerhalb einer Zeile sind die Werte mit einem Komma 
getrennt. Die Abkürzung des Dateiformats steht dementsprechend für Comma Separa- 
ted Values. In Abb. 3.2 ist ein Auszug aus einer solchen Datei abgebildet, in der Tweets 
mit einer ID und zugehörigen Kennwerten aufgelistet sind. Die Spaltennamen sind in 
der ersten Zeile angegeben. Hier wird auch eine Besonderheit sichtbar: Die Liste der 
Hashtags ist in der zweiten Zeile in Anführungszeichen gesetzt, damit sie als ein Wert 
zählt, obwohl darin ebenfalls ein Komma enthalten ist. 

Es gibt allerdings etliche Varianten dieses Formats und man muss im Einzel- 
fall prüfen, womit man es zu tun hat. Die Dateien unterscheiden sich zum einen 
wie alle Textdateien durch die verwendeten Zeilenumbrüche und durch die 
Zeichenkodierung (siehe oben). Dazu kommen zwei Besonderheiten von CSV- 
Dateien: 


e Als Trennzeichen zwischen den Werten sind neben Kommata auch Semikola, 
Leerzeichen, Tabulator oder seltener die Pipe (senkrechter Strich |) oder die 
Raute (Doppelkreuz #) gebräuchlich. Je nach Voreinstellung des Systems 
kommen Microsoft Office-Programme meistens besser mit Tabulatoren zu- 
recht, andere Statistikprogramme vor allem mit Kommata und Semikola. 


id, name, from, favorites, replies, retweets,hashtags 


p 
6,eaduenergy, Forschungslabor Eadu, 64,0,1,"sternzerstörer, werft" 


r 
7,eaduenergy, Forschungslabor Eadu,3,0,,todesstern 
r 


8,eaduenergy, Forschungslabor Eadu, 30, 0, 6, kyber 


Abb. 3.2 Auszug aus einer CSV-Datei. (Quelle: eigene Darstellung) 
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Soll in einem Feld das Trennzeichen selbst verwendet werden, dann muss die- 
ses markiert werden, damit dadurch keine neue Spalte beginnt. Häufig werden in 
diesem Fall die Werte in doppelte Anführungszeichen gesetzt. Dadurch verschiebt 
sich das Problem, denn auch Anführungszeichen können in den Werten selbst 
vorkommen. Dieses Problem wird wiederum anders gelöst und als Maskieren 
bezeichnet: Entweder wird den Anführungszeichen ein Backslash vorangestellt 
oder die Anführungszeichen werden verdoppelt. Soll wiederum ein solches 
Maskierungszeichen wie der Backslash verwendet werden, wird es nochmals 
maskiert, das heißt verdoppelt. Diese Form des Maskierens von reservierten Zei- 
chen wird in vielen anderen Sprachen wie R oder Python ähnlich umgesetzt. 


e Die Spaltenbezeichnungen sind häufig in der ersten Zeile angegeben, aber 
nicht immer. Dann müssen die Spaltennamen beim Einlesen zusätzlich angege- 
ben werden. 


Sollten Sie CSV-Dateien in Programme einlesen, um diese weiterzuverarbeiten, 
können Konvertierungsprobleme auftreten. Dies passiert, wenn das Programm von 
einem anderen CSV-Dialekt ausgeht, als ihn die Datei aufweist. In diesem Fall 
versuchen Sie zunächst herauszufinden, ob Sie Einstellungen beim Einlesen des 
Datensatzes vornehmen können, etwa um das Trennzeichen festzulegen. Um ein- 
schätzen zu können, welcher ‚Dialekt‘ in einer CSV-Datei eingesetzt wird, kann 
man sie mit einem Texteditor öffnen (siehe Kap. 1; ® Repositorium). Wichtig ist 
dabei, dass man im Texteditor auch die unsichtbaren Steuerzeichen einblendet. 
Sonst lassen sich Tabulatoren und Leerzeichen oder auch die verschiedenen Zei- 
lenumbruchszeichen nicht voneinander unterscheiden. Mit einem Texteditor kön- 
nen Sie das Format der Datei ggf. ändern, indem Sie beispielsweise alle Tabulato- 
ren durch Semikola ersetzen. Auch bei anderen Dateiformaten lohnt es sich in der 
Regel, sie einmal mit einem Texteditor zu betrachten. 


3.4 Auszeichnungssprachen (HTML und XML) 


Um in einem fortlaufenden Text einzelne Abschnitte zu markieren und zu forma- 
tieren, eignen sich Auszeichnungssprachen. Häufig verwendete Auszeichnungs- 
sprachen sind die Hypertext Markup Language (HTML) oder die Extensible 
Markup Language (XML). Die Grundprinzipien von Auszeichnungssprachen sind 
meist ähnlich. So geht es zunächst darum, allgemein die gesamte Struktur sowie 
einzelne Merkmale in Texten zu annotieren. Umgesetzt wird dies durch das Um- 
klammern einzelner Textteile. 

Im Detail unterscheiden sich die verschiedenen Auszeichnungssprachen in ihrer 
syntaktischen Umsetzung und in den Anwendungsfällen. HTML ist die Standard- 
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sprache, mit der Webseiten geschrieben werden. Soll beispielsweise ein Wort fett 
dargestellt werden, so wird es mit einem <b>-Tag umschlossen. Der Name des 
Tags ist in spitzen Klammern angegeben, der Buchstabe „b“ steht in diesem Fall 
für „bold“ (deutsch fett). Direkt vor der Textstelle wird ein 6ffnendes Tag gesetzt 
und direkt danach ein schließendes Tag. Der Unterschied zwischen diesen beiden 
Varianten besteht darin, dass schließende Tags nach der ersten spitzen Klammer 
einen Schrägstrich/ enthalten: 


Dieser Satz enthält ein <b>fett</b> gedrucktes Wort. 


Nur öffnende Tags können mit weiteren Attributen versehen werden. Solche 
Attribute werden abgetrennt mit einem Leerzeichen hinter dem Namen des Tags 
angegeben. Auf den Namen des Attributs folgt ein Gleichheitszeichen, danach in 
einfachen oder doppelten Anführungszeichen der Wert. Attribute sind also Name- 
Wert-Paare. So kann ein Tag mit einem eindeutigen Bezeichner (ID) versehen wer- 
den, damit es von anderen gleichnamigen Tags unterscheidbar ist. Häufig sind auch 
class-Attribute anzutreffen, die für die Gestaltung im Web eine besondere Rolle 
spielen (siehe Abschn. 4.1). 


Dieser Satz enthält zwei <b id="wort1" class="gruen">fett 
</b> gedruckte Wörter mit <b id="wort2" class="gruen"> 
unterschiedlichen</b> IDs und der gleichen Klasse. 


Durch Tags markierte Bereiche können auch verschachtelt werden, etwa um 
einen Absatz zu markieren und darin Wörter hervorzuheben. Absätze werden durch 
<p>-Tags markiert. Allerdings dürfen sich die Bereiche nicht überkreuzen. Wenn 
also eine Fettung im nächsten Absatz fortgesetzt werden soll, muss sie zunächst 
geschlossen und dann nach dem öffnenden Absatz-Tag wieder neu geöffnet werden: 


<p>Dieser Absatz endet mit <b>fett gedruckten Wörtern 
</b></p><p><b>Dieser Absatz</b> beginnt mit fett 
gedruckten Wörtern.</p> 


Die Möglichkeit zur hierarchischen Strukturierung ist eine besondere Stärke 
von Auszeichnungssprachen und macht sie flexibel einsetzbar. Außerdem erlaubt 
der HTMLS-Standard in bestimmten Fällen auch alleinstehende Tags, die genauso 
aussehen wie 6ffnende Tags und nicht wieder geschlossen werden müssen. Damit 
wird der Quelltext übersichtlicher, etwa wenn Bilder eingebunden werden: 


<img src="chewbacca.png" alt="Chewbacca"> 
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Sprachen wie HTML legen darüber hinaus auch den Aufbau von Dokumenten 
fest. Ein HTMLS5-Dokument beginnt immer mit der Angabe des Dokumententyps 
und dem <htm1>-Element. Darin sind ein <head>-Element für nicht sichtbare 
allgemeine Angaben und ein <body>-Element mit den sichtbaren Inhalten der 
Seite enthalten. Das Grundgerüst sieht wie folgt aus: 


<!DOCTYPE html> 
<html> 
<head> 
<title>Seitentitel</title> 
</head> 
<body> 
Seiteninhalte 
</body> 
</html> 


Auch das Vokabular ist standardisiert, das heißt die Tags haben eine festgelegte 
Bedeutung. So sind im HTML5-Standard unter anderem folgende Tags festgelegt:* 


e <h1>,<h2> bis <h6> kennzeichnen Überschriften erster, zweiter bis sechster 
Ordnung. 

e <p> kennzeichnet Absätze. 

e <em> kennzeichnet Hervorhebungen. 

e <table> kennzeichnet eine Tabelle, <tr> eine Tabellenzeile und <td> eine 
Zelle innerhalb einer Tabellenzeile. 

e <img> wird für Bilder verwendet. 

e <a> steht für Anchor und wird zum Setzen von Links verwendet. 

e <meta> steht für Metanagaben wie das Erstelldatum oder der Titel einer Seite. 
Diese Angaben sind im Kopfbereich des Quelltextes eingebettet und nicht 
sichtbar. 


Für die Formatierung von Webseiten sind noch weitere Elemente verbreitet, die 
keine vorgegebene Bedeutung haben. In Verbindung mit IDs und Klassen- 
Attributen werden diese Elemente dann mittels Cascading Style Sheets (CSS) op- 
tisch formatiert oder mittels JavaScript um interaktive Funktionen erweitert: 


®Der HTML-Standard wird durch das W3C festgelegt und ist dort auch dokumentiert, siehe 
W3Schools (2022a; https://www.w3schools.com/tags/default.asp). 
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e <span> kennzeichnet Textbereiche, in der Regel kurze Phrasen oder ein- 
zelne Wörter. 

e <div> kennzeichnet Blöcke, zum Beispiel den Kopfbereich oder den Fußbe- 
reich einer Seite. 


Um einen Eindruck davon zu gewinnen, wie eine Webseite aufgebaut ist, können 
Sie sich den Quelltext im Browser ansehen. Hierzu kann in den meisten Browsern 
mit der rechten Maustaste ein Kontextmenü aufgerufen werden, in dem die Funk- 
tion SEITENQUELLTEXT ANZEIGEN oder ähnlich angeboten wird. Der gesamte 
Quelltext ist häufig jedoch eher unübersichtlich. Zudem interessiert in der Regel 
nur ein ganz bestimmter Ausschnitt aus dem Quelltext. Um schnell zu erfassen, wie 
ein bestimmter Teil einer Seite umgesetzt wurde, lässt sich eine Entwicklerkonsole 
öffnen. In der Konsole kann gezielt ein Ausschnitt aus dem Quelltext anvisiert 
werden. Dazu klicken Sie im Browser mit der rechten Maustaste auf ein Element, 
zum Beispiel ein Eingabefeld, und wählen dann ELEMENT UNTERSUCHEN 
(Abb. 3.3). Alternativ können Sie die Entwicklerkonsole in vielen Browsern mit 


Klick mit rechter Maustaste 
Rückgängig 
Ausschneiden 
Kopieren 1 
Einfügen 
į à Lösch m 
a Hinweise zum De == SPÄTER ERINNER! 
Alles markieren 
Ein Schlüsselwort für diese Suche hinzufügen... 
Deutschland | Blementuntersuchen(@ O OOO 
v 
< > 
Ce ee: © Kons: D Debug: {} Stilbearbeit & Laufzeitanz AR Spei = Netwekn B Speict ArH BIER x 
+ HTML durchsuchen é © Regeln Berechnet Layo ~ 
~ <div ide"sb_ifco" class="sbib_b" dir="Ltr"> Stile fitem En ee 
» relative;"> a 
Element Ù { Inline A 
> border: medium none; 
| berder-top-eslor: 
order: medium none; padding: currentcoler; 
@px; height: auto.tion: absolute; index: 6; | border-richt-coler; 
outline: medium non Sa currentcolor; 
| border-bottom- 
— — — RER 
transparent none repeat scroll @% 8%: color: tra.. absolute: ¥ È v 
eurrentesler; 
< div#sbtc.sbte div.sbibtd div#sfdiv.sbibod.sbfen. div.Ist-c div.gstl_0.sbib_a div&sb_if > < > 


Abb. 3.3 Der Quelltext von Webseiten im Browser Firefox (Entwicklerkonsole). (Quelle: 
eigene Darstellung) 
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der Taste F12 erreichen. Sie können dort auch Texte oder Attribute verändern, pro- 
bieren Sie es einmal aus! 

Der Browser arbeitet nicht direkt mit dem Quelltext, sondern liest ihn in ein 
sogenanntes Document Object Model (DOM) ein. Dieser Vorgang heißt parsen und 
spielt im Zusammenhang mit automatisierter Datenerhebung eine Rolle (siehe 
Kap. 7). Das DOM bildet den Quelltext in einer Baumstruktur bestehend aus Kno- 
ten ab. Die Tags, Attribute und der Text werden dazu in Knoten umgewandelt. 
Dieses DOM bzw. die enthaltenen Knoten können durch Sprachen wie JavaScript 
verändert werden, um eine Webseite interaktiv zu gestalten. 

Eine weitere Auszeichnungssprache, die vor allem als Datenbankformat einge- 
setzt wird, stellt die Extensible Markup Language (XML) dar.’ Im Grunde funkti- 
oniert XML ähnlich wie HTML, auch mithilfe dieser Sprache werden Texte struk- 
turiert. Im Gegensatz zu HTML ist XML allerdings in der inhaltlichen Ausgestaltung 
flexibler, was speziell an bestimmte Anwendungsfälle angepasste Datenstrukturen 
erlaubt. Die Flexibilität ist vor allem dadurch begründet, dass in XML fast belie- 
bige Namen für Tags und Attribute verwendet werden können. Hier ist hauptsäch- 
lich die Syntax festgelegt, das heißt die Struktur aus Tags, Attributen und Text. 
Außerdem unterscheidet sich XML insofern von HTML, dass in XML-Dokumenten 
alle Tags immer geschlossen werden. Ein Tag kann bei Bedarf geöffnet und sofort 
wieder geschlossen werden, indem ein Schrägstrich vor die schließende spitze 
Klammer gestellt wird: 


<img src="chewbacca.png" alt="Chewbacca" /> 


Viele dieser Auszeichnungssprachen liegen in unterschiedlichen Versionen vor. 
Während XML nur die allgemeine Struktur vorgibt, ist die Bedeutung der Ele- 
mente in weitergehenden Standards festgelegt. Zum Beispiel baut das TEI-Format, ' 
ein in den Geisteswissenschaften verbreiteter Standard zur Aufbereitung von Tex- 
ten, auf XML auf. Im TEI-Format ist beispielsweise festgelegt, dass Sätze oder 
Nebensätze mit bestimmten Tags wie <li> oder <c1> versehen werden, sodass 
die Satzstruktur rekonstruiert werden kann. Auch RSS-Feeds, in denen zum Bei- 
spiel Nachrichtenseiten die aktuellen Meldungen anbieten, sind ein XML-Format. 
Ebenso enthalten einige Microsoft-Office-Dateien eine Sammlung von XML- 
Dokumenten mit einer festgelegten Struktur (OpenDocument, Office Open XML), 


°Auch der XML-Standard ist von W3C dokumentiert und einsehbar unter W3C (2013; 
https://www.w3.org/TR/xml/). 


10 Siehe Text Encoding Initiative (2022; https://tei-c.org/). 
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die zu einer Datei zusammengepackt und komprimiert sind.'! Auch für die Anno- 
tation von Trainingskorpora für das Machine Learning (siehe Kap. 8) wird XML 
eingesetzt. Im Oxford Text Archive (siehe Kap. 2) sind zum Beispiel Personen in 
Dokumenten als sogenannte Named Entities gekennzeichnet. 


3.5  Objektdatenformate (JSON) 


Innerhalb von Programmiersprachen werden Daten häufig als Objekte repräsen- 
tiert, die Eigenschaften mit bestimmten Werten haben. Eine Nutzerin könnte dann 
beispielsweise als Objekt erfasst sein, welches die Eigenschaft „Name“ mit dem 
Wert „Eliza“ hat. Werte können auch komplexe Datentypen umfassen — insbeson- 
dere Listen, wenn jemand mehrere Namen hat — oder die Werte selbst sind wiede- 
rum Objekte, wenn ein Namensobjekt zum Beispiel die Eigenschaften „Vorname“ 
und „Nachname“ enthält. 

Mit derartigen Datenstrukturen lassen sich viele Bereiche der Welt innerhalb 
von Programmen modellieren. Dafür werden Listen, Name-Wert-Paare und ele- 
mentare Datentypen wie Zahlen, Zeichenketten und Datumstypen benötigt. Ein 
Datenformat für solche Datenstrukturen ist JSON (JavaScript Object Notation).' 
Dieses Format wird im Web — dem Ursprungskontext der Programmiersprache Ja- 
vaScript — zum Beispiel für APIs (Programmierschnittstellen) oder für interaktiv 
nachgeladene Inhalte verwendet.” Mittlerweile hat sich JSON in vielen weiteren 
Bereichen etabliert. So lassen sich zum Beispiel mit der Programmiersprache Py- 
thon (siehe Abschn. 5.2) unter Verwendung der json-Bibliothek die internen Daten- 
strukturen als JSON abspeichern oder laden.'* 

In JSON werden Listen in eckige Klammern eingefasst, wobei die Elemente mit 
Kommata getrennt werden. Eine Sammlung von Name-Wert-Paaren wird als Dic- 
tionary bezeichnet und ebenfalls mit Kommata getrennt, aber in geschweiften 
Klammern zusammengefasst. Der Name (auch Schlüssel, engl. key) wird links von 


1! Zum Auspacken einer docx-Datei kann ein normales ZIP-Programm wie 7zip verwendet 
werden. Anschließend lassen sich die Inhalte im Texteditor ansehen. Probieren Sie es 
einmal aus! 

1? Eine Referenz zum JSON-Format wird von der Internet Engineering Task Force (IETF) 
herausgegeben, siehe Bray (2014; https://tools.ietf.org/html/rfc7 159). 

83 Die zum interaktiven Nachladen verwendeten XMLHttpRequests vermitteln entgegen dem 
Namen nicht nur XML, sondern auch andere Datenformate wie JSON. 

14 Achtung bei der Verwendung von Anführungszeichen: JSON sieht ähnlich aus wie Dictio- 
naries in Python (Tab. 3.1), allerdings dürfen hier anders als in Python nur doppelte Anfüh- 
rungszeichen verwendet werden. 
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einem Doppelpunkt angegeben, der Wert rechts davon. Zahlenwerte werden ange- 
geben wie sie sind. Die Schlüssel und Zeichenketten werden in doppelte Anfüh- 
rungszeichen gesetzt: 


"Name": "Eliza", 
"Typ" : "Bot", 
"Geburtsjahr" : 1966 
}, 
{ 
"Name": { 
"vorname": "Joseph", 
"nachname": "Weizenbaum" 
Ir 
"Typ": "Mensch", 


"Geburtsjahr": 1923 


Ein Vorteil gegenüber proprietären'® Formaten zur Repräsentation von Objekten 
besteht darin, dass JSON sowohl maschinen- als auch menschenlesbar ist. Wie 
auch CSV-Dateien und HTML- oder XML-Dateien können JSON-Dateien mit ei- 
nem Texteditor geöffnet und bearbeitet werden. Die Lesbarkeit ist vor allem dann 
gut, wenn die Hierarchie der Struktur durch Einrückungen sichtbar gemacht wird. 
Das gilt natürlich auch für XML und HTML. Einige Texteditoren stellen Funktio- 
nen bereit, um sinnvoll einzurücken. Dieser Vorgang und die entsprechenden Funk- 
tionen nennen sich im Englischen pretty print. 


3.6 Datenbanken (SQL und NoSQL) 


Jede Sammlung von CSV-, HTML- oder JSON-Dateien kann man bereits als Da- 
tenbank im weiteren Sinn begreifen. Wenn von einer Datenbank die Rede ist, meint 
man damit aber meistens ein Datenbank Management System (DBMS). Ein sol- 


15 Der Ausdruck „proprietär“ bedeutet, dass ein Hersteller ein Datenformat ohne Rücksicht 
auf Standards und häufig auch ohne öffentliche Dokumentation speziell für seine eigenen 
Produkte entwickelt hat. Proprietäre Software ist vereinfacht gesagt das Gegenstück zu 
Open-Source-Software. 
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ches System ist mehr als die Zusammenstellung von Daten. Dazu gehört in der 
Regel eine Software, die Funktionen zur effizienten Verwaltung (Speichern, Abfra- 
gen, Lastverteilung) und auch zum Sicherstellen der Datensicherheit (Transaktio- 
nen, Verschlüsselung) bereitstellt. Diese Funktionen sind einerseits für den Um- 
gang mit großen Datenbeständen und andererseits für die Koordination 
gleichzeitiger Zugriffe nötig. 

Im Allgemeinen unterscheidet man relationale und nichtrelationale Datenban- 
ken. Tendenziell eignen sich relationale Datenbanken immer dann, wenn das 
Schema der erfassten Daten festgelegt ist und tabellarische Daten schnell aus der 
Datenbank ausgelesen werden sollen. Nichtrelationale Datenbanken sind dahinge- 
gen besonders dann von Vorteil, wenn vermehrt veränderliche Datenstrukturen 
oder Objekte in die Datenbank geschrieben werden. Vom Datenbankmanagement- 
system hängt auch ab, über welche Sprache Daten in die Datenbank geschrieben 
oder aus dieser gelesen werden. Besonders bei relationalen Datenbanken kommt 
die Abfragesprache SQL (Structured Query Language) zum Einsatz. Nichtrelatio- 
nale Datenbanken werden auch NoSQL-Datenbanken genannt, beispielsweise 
werden Netzwerke in Graphendatenbanken erfasst und über SPARQL oder die Cy- 
pher Query Language abgefragt (siehe Kap. 4). 

Relationale Datenbanken legen die Daten in Tabellen ab, die untereinander über 
IDs verknüpft sind (engl. join). In einer Tabelle sind dann beispielsweise Blogarti- 
kel abgelegt und in einer anderen die Kommentare der Nutzer:innen zu einem Ar- 
tikel. Jeder Artikel und jeder Kommentar erhalten eine ID, das heißt eine eindeu- 
tige Nummer.'° In der Tabelle mit den Kommentaren wird zusätzlich die ID des 
dazugehörigen Artikels als sogenannter Fremdschlüssel abgelegt (siehe auch 
Abb. 3.4). 

Man unterscheidet dabei vor allem drei Arten von Beziehungen: 


e Bei 1:1-Beziehungen gehört zu einem Datensatz immer genau ein Datensatz 
aus einer anderen Tabelle. Zum Beispiel wird einer Person immer genau eine 
Postadresse zugeordnet. 

e Bei 1:n-Beziehungen oder n:1-Beziehungen können zu einem Datensatz meh- 
rere Datensätze aus einer anderen Tabelle gehören. Ein:e Verkäufer:in kann zum 
Beispiel mehrere Produkte verkaufen. Bei der Umsetzung erhält jede:r Verkäu- 
fer:in eine eindeutige ID (= Schlüssel) und diese ID wird in einer Spalte der 
Produkttabelle (= Fremdschlüssel) vermerkt. 


!6$Es können theoretisch auch nichtnumerische Merkmale verwendet werden (z. B. Hash- 
werte). Die Verwendung von Nummern ist allerdings platzsparend und effizient, da Compu- 
ter Zahlen gut verarbeiten können. 
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id int 
user_id int 


status 


i 
created_at archar id int id int 
name varchar f merchant_name varchar 
order_items merchant_id int = country_code int 


order_id in price int created at 


product_id status products_status 


quantity nt created_at datetime 


Abb. 3.4 Auszug aus der relationalen Datenstruktur eines Shop-Systems. Jeder Kasten 
steht für eine Tabelle, darin sind die Spalten aufgeführt. Die Verknüpfung erfolgt über IDs. 
Zum Beispiel wird in der Tabelle für die Elemente im Warenkorb (order_items) die ID des 
Produkts vermerkt. (Quelle: Holistics.io (2022; https://dbdiagram.io/)) 


e Bein:m-Beziehungen werden mehreren Datensätzen aus einer Tabelle mehrere 
Datensätze aus einer anderen Tabelle zugeordnet. Zum Beispiel kann eine Be- 
stellung mehrere Produkte umfassen, gleichzeitig kann ein Produkt mehrfach 
von unterschiedlichen Käufer:innen bestellt werden. Diese Struktur wird meis- 
tens über drei Tabellen abgebildet: eine Produkttabelle, eine Bestelltabelle und 
eine Warenkorbtabelle. Erst indem die Warenkorbtabelle zu den anderen beiden 
Tabellen in 1:n-Beziehungen steht, stehen die Produkt- und Bestelltabelle zuei- 
nander in einer n:m-Beziehung. 


Die Struktur der Tabellen — vor allem Name der Tabellen, Name und Datentyp der 
Spalten - ist in der Regel festgelegt. Diese Struktur kann zwar verändert werden, 
betrifft dann aber den gesamten Datenbestand. Eine relationale Datenbank muss 
also den damit abgebildeten Gegenstand (z. B. Weblogs oder Online-Shops) voll- 
ständig modellieren. 

Eines der am weitesten verbreiteten Datenbankmanagementsysteme ist Ma- 
riaDB. Es ist als Open-Source-Software verfügbar, eine kommerzielle Lizenzierung 
erlaubt das kompatible MySQL.” Für den Datenaustausch verwendet man bei 
SQL-Datenbanken häufig sogenannte Dumps. Dabei handelt es sich um Textda- 
teien, in denen die SQL-Befehle zum Erzeugen der Datenbank, der Tabellen und 


1! MariaDB (MariaDB Foundation 2022; https://mariadb.org/) ist in eine Abspaltung von 
MySQL (Oracle 2021; https://www.mysql.com/), beide Varianten sind meist austauschbar. 
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-- Struktur der Tabelle pages 
CREATE TABLE IF NOT EXISTS `pages` ( 
`id` int (11) NOT NULL AUTO_INCREMENT, 
created datetime DEFAULT CURRENT_TIMESTAMP, 
title‘ text COLLATE utf8_unicode_ci, 
PRIMARY KEY ('id') 
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf£8 unicode ci; 


-- Daten der Tabelle pages 

NSERT INTO `pages` (`id`ò, ‘created’, 'title‘) VALUES 
'2018=09=08 13:59:05", “Kontakt"),; 
V2018=09=08 133592 05",;, "Startseite"), 
"2018-09-08 13:59:05', "“Impressum") 


Abb. 3.5 Auszug aus dem SQL-Dump eines Content-Management-Systems für Webseiten. 
(Quelle: eigene Darstellung) 


der Inhalte aufgelistet sind (Abb. 3.5). Die Befehle können dann in einem Daten- 
bankmanagementsystem ausgeführt werden, um eine Datenbank einzuspielen 
(siehe Abschn. 4.1.4). Da diese Dateien sehr groß werden können, sind sie meis- 
tens mit einem zip-Programm gepackt. 

Dagegen ist bei nichtrelationalen Datenbanken die Struktur bzw. das Daten- 
bankschema üblicherweise nicht festgelegt und wird durch die konkreten Daten- 
sätze bestimmt. Diese Systeme sind meistens für spezielle Einsatzzwecke opti- 
miert. Für einen sehr schnellen und einfachen Datenzugriff können etwa 
Name-Werte-Listen verwendet werden. Beispiele dafür sind Google Bigtable'® 
oder Redis.” Da die die Namen der Werte flexibel handhabbar sind und nicht von 
vornherein festgelegt werden müssen, können später immer wieder neue Datensor- 
ten aufgenommen werden. Das ist beispielsweise hilfreich, wenn sich erst später 
herausstellt, dass für eine:n Nutzer:in nicht nur der Link zum Twitter-Profil, son- 
dern auch zum Instagram-Profil erfasst werden soll. 

Weisen die Datensätze noch komplexere Strukturen auf, eignen sich dokumen- 
tenorientierte Datenbanken wie MongoDB,” in welcher Daten intern als JSON 
abgelegt werden, oder eXist”! für XML-Dokumente. Ähnliche Systeme kommen 
für Volltextsuchmaschinen zum Einsatz, zum Beispiel bei Elasticsearch.”” Gra- 


18 Siehe Google (2022a; https://cloud.google.com/bigtable). 
Siehe Redis (2022; https://redis.io/). 

2° Siehe MongoDB (2022; https://mongodb.com/). 

2! Siehe Meier (2003; http://www.exist-db.org/). 

22 Siehe Elastic (2022; https://elastic.co/elasticsearch/). 
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phenorientierten Systeme wie Neo4j verwalten wiederum besonders gut Netz- 
werkdaten.”’ Relationale und nichtrelationale Konzepte lassen sich auch mischen, 
indem flexible Datenformate wie JSON oder XML in den Spalten einer relationa- 
len Datenbank abgelegt werden. Eine Übersicht über die aktuell verbreiteten Da- 
tenbanksysteme und Erläuterungen zum Aufbau finden Sie bei DB-Engines.”* 


3.7 Datenmodelle (RDF) 


In Bezug auf Datenformate haben sich Standards wie CSV, JSON oder XML und 
HTML herausgebildet. Auch bei den Datenbanken genießen einzelne Systeme wie 
MySQL hohe Popularität. Dennoch ist das Datenmodell von Anwendung zu Anwen- 
dung sehr verschieden. Formal versteht man unter einem Datenmodell die Abbildung 
der Prozesse und Sachverhalte eines Anwendungsbereichs (auch Domäne genannt) 
auf die Datenstrukturen. Ein Datenmodell umfasst somit beispielsweise die Bezeich- 
nungen der Datenfelder und die Beziehungen zwischen Tabellen. Datenmodelle sind 
zunächst abstrakte, konzeptionelle Vorstellungen, wie bestimmte Sachverhalte mit- 
hilfe von Daten modelliert werden sollen, beispielsweise das Zusammenspiel von 
Nutzer:innen, Posts und Kommentaren auf einer Social-Networking-Site oder die 
Struktur einer historisch-kritischen Edition. Die konkrete Ausgestaltung des Modells 
geschieht dann über die Erfassung der Daten, die mit festgelegten Datenformaten in 
einer Datenbank abgelegt werden (Abb. 3.6). In der Regel wird für jede Anwen- 
dung — sei es eine Smartphone-App oder ein wissenschaftliches Datenanalysepro- 
jekt - ein eigenes Datenmodell entwickelt. Zur Dokumentation von Datenmodellen 
werden Sprachen wie die Unified Modeling Language (UML) eingesetzt.” 
Besonders bei der Arbeit mit großen Datenbeständen oder wenn Daten veröffent- 
licht werden sollen, gewinnt ein einheitliches Datenmodell an Bedeutung. Ziel ist es 
dabei, Daten nach einem festgelegten System zu erfassen und abzuspeichern, damit 
diese auch von anderen verwendet werden können. Das lässt sich anhand von Perso- 
nendatensätzen verdeutlichen: Das Geburtsdatum einer Person kann unter unter- 
schiedlichen Bezeichnungen wie Geburtstag, Geburtsdatum, birthday 
oderbirthdate erfasst sein. Für Menschen ist leicht zu erkennen, dass diese Daten 
den gleichen Sachverhalt repräsentieren. Computer können die Bedeutung nicht er- 
kennen, sodass sich verschiedene Datensätze nicht ohne Weiteres verbinden lassen. 


3 Siehe Neo4J (2022; https://neo4j.com/). 
*4 Siehe Solid IT (2022; https://db-engines.com/). 
> Siehe OMG (2022; https://uml.org/). 
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Datenbank 


Datenmodell 


Abb. 3.6 Zusammenhang zwischen Daten, Datenbanken und Datenmodellen. (Quelle: ei- 
gene Darstellung) 


Ein Lösungsansatz für diese Herausforderung stellt das Resource Description 
Framework (RDF) dar (siehe W3C 2014). Es umfasst drei wesentliche Konzepte: 


1. Aussagen setzen sich aus drei Elementen zusammen: einem Subjekt, einem 
Prädikat und einem Objekt. Ein Geburtsdatum lässt sich wie folgt formulieren: 
Ada (Subjekt) ist geboren (Prädikat) am 10. Dezember 1815 (Objekt).”° Im 
Prinzip lassen sich alle Daten als solche Tripel formalisieren.?’ Mehrere Aussa- 
gen lassen sich als Netzwerke bzw. Graphen auffassen. An einem Datum sind 
zum Beispiel mehrere Personen geboren, sodass verschiedene Personen über 
das Datum zumindest formal in Beziehung zueinanderstehen. 

2. Die Elemente eines Tripels können über Vokabulare eindeutig bezeichnet wer- 
den. Vokabulare beinhalten festgelegte Ausdrücke für bestimmte Kategorien wie 
Geburtstage. Ein verbreitetes Vokabular zur Erfassung von Personen ist etwa 
Friends of a Friend (FOAF), in welchem Prädikate wie Namen, Adressen oder 
Bekanntschaftsbeziehungen standardisiert sind. Ein Geburtsdatum würde hier 
mit dem Schlüssel foaf : birthday erfasst werden. Weitere Vokabulare wer- 
den von schema.org oder DBPedia gepflegt, wobei ein Geburtsdatum über die 
Schlüssel schema :birthDate bzw. dbo:birthDate angegeben wird.” 


2° Diese Struktur stimmt nicht zwangsläufig mit den grammatischen Kategorien der Linguis- 
tik überein. 

?’ Die Umformung von Datensätzen in diese Struktur kann über das Umformen vom Wide- in 
das Long-Format erreicht werden (siehe auch Kap. 4). 

°8 Siehe Brickley und Miller (2014; http://xmlns.com/foaf/spec), Google et al. (2022; https:// 
schema.org) und DBPedia Association (2021; http://dbpedia.org). 
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Eine Zusammenstellung untereinander verbundener Begriffe, beispielsweise 
dass Personen tiber ein Geburtsdatum und ein Sterbedatum verfiigen, wird On- 
tologie genannt, wobei das Begriffssystem mit Sprachen wie der Web Ontology 
Language (OWL) formalisiert wird.” 

3. Bezeichnungen werden entweder in der Form von Zeichenketten (= Literale) 
oder als eindeutige Uniform Resource Identifier (URT)” angegeben. Die Prä- 
fixe foaf, schema und dbo sind lediglich Abkürzungen, der vollständige 
URI fiir foaf:birthday lautet beispielsweise http://xmlns.com/ 
foaf/0.1/birthday. Selbst wenn verschiedene Dienste fiir die gleichen 
Bedeutungen nicht die gleichen Bezeichnungen verwenden, können die Voka- 
bulare ineinander übersetzt werden.*! 


Das Resource Description Framework bringt sehr unterschiedliche Datenmodelle 
auf den kleinsten gemeinsamen Nenner. Aus dieser Kleinteiligkeit ergibt sich der 
Nachteil, dass die Daten kaum noch durch Menschen erfasst werden können. Das 
ist aber auch nicht Ziel dieser Technologie. Vielmehr geht es darum, Daten in ma- 
schinenlesbarer Form mit Bedeutung zu versehen und daraus neue Aussagen abzu- 
leiten — sodass nicht Menschen, sondern Maschinen die Daten effizient verknüpfen 
oder lesen können. Die Daten können dazu in Triple Stores — eine Form nichtrela- 
tionaler Datenbanken — abgelegt und über Abfragesprachen wie SPARQL abge- 
fragt werden. Dabei werden Aussagen mit Platzhaltern und Bedingungen formu- 
liert. Eine Abfrage kann zum Beispiel festlegen, dass die Subjekte vom Typ 
Wissenschaftler:in sein sollen: ? person rdf:type dbo:Scientist. Mit 
einer Kombination verschiedener Tripel lässt sich erfragen, welche Wissenschaft- 
ler:innen heute Geburtstag haben (Abb. 3.7). 


® Eine Visualisierung von Begriffsnetzwerken bietet beispielsweise WebVOWL (Link et al. 
2019; http://vowl.visualdataweb.org/webvowl.html) und über das W3C Wiki (W3C 2021; 
https://www.w3.org/wiki/Search_engines) können entsprechende Vokabulare gefunden wer- 
den. Die Basic Formal Ontology (BFO) stellt darüber hinaus ein abstraktes Begriffssystem 
zur Verfügung, das möglichst universell einsetzbar ist (Ruttenberg 2020; http://basic-for- 
mal-ontology.org/). 


3°Eine spezielle Form von URIs sind Uniform Resource Locators (URLs, siehe Abschn. 2.1), 
das heißt Webadressen wie https://de.wikipedia.org/wiki/Ada_Lovelace. Hiermit wird eine 
Webseite eindeutig identifiziert. Durch die Angabe ,,https://“ ist zudem klar, dass auf diese 
Resource über das Web (https-Protokoll) zugegriffen werden kann. International Resource 
Identifiers (IRIs) sind dagegen eine Erweiterung von URIs um Sonderzeichen und Zeichen 
anderer Sprachen. 

3! Die Vokabulare selbst werden über Metasprachen wie die Web Ontology Language (OWL) 
oder RDF Schema (RDFS) beschrieben und lassen sich darüber untereinander verbinden. 
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Angabe der verwendeten 


Vokabulare 


PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
PREFIX rdfs:<http://www.w3.org/2000/01/rdf-schema#> 
PREFIX dbo: <http://dbpedia.org/ontology/> 


SELECT DISTINCT ?person ?birthdate ?name ?description 


WHERE { 
?person rdf:type dbo:Scientist 
?person dbo:birthDate ?birthdate . Felder 
?person rdfs:label ?name 


?person rdfs:comment ?description . : : 
Tripel mit 
FILTER ((SUBSTR(STR(?birthdate) ,6)= Platzhaltern 
SUBSTR(STR(bif:curdate('')),6)) 


&& 


Zurückgegebene 


(lang (?name) ="en")&& 
(lang (?description)="en")) 5 
Eingrenzung auf 


} ORDER BY ?birthdate LIMIT 10 


den heutigen Tag 


Abb. 3.7 SPARQL-Abfrage. Die Abfrage gibt bis zu zehn Wissenschaftler:innen zurück, 
die heute Geburtstag haben. Dazu werden drei Vokabulare (rdf, rdfs, dbo) verwendet. Sie 
können diese Abfrage unter OpenLink Software (2022; http://dbpedia.org/sparql) ausprobie- 
ren. Datengrundlage sind Wikipedia-Artikel. (Quelle: Eigene Darstellung auf Grundlage von 
Sack und Koutraki (2017)) 


Im Web frei verfügbare RDF-Daten werden als Linked Open Data (LOD) be- 
zeichnet. Insbesondere in den Digital Humanities werden Datenbestände zuneh- 
mend als Linked Open Data verfügbar gemacht und mit anderen Datenbeständen 
verknüpft (Abb. 3.8). Im Kontext wissenschaftlicher Projekte eignet sich RDF ers- 
tens zur strukturierten Datenerfassung, etwa um systematisch bestimmte Wissens- 
bereiche zu erfassen. Diese sogenannten Knowledge Graphs gruppieren sich um 
Entitäten wie Personen, Orte oder aber auch Softwares’” und erfassen die Bezie- 
hungen zwischen den Entitäten in Form von Verwandtschaften, Einbindungen in 
Organisationen oder Erwähnungen in Texten. Zweitens können diese Daten abge- 
fragt werden, um etwa Stichproben von Klöstern oder Schauspieler:innen zu zie- 
hen (für ein Beispiel siehe Burggraaff und Trilling 2020). 

Umfangreiche Datenbestände finden sich vor allem bei DBPedia und Wikidata. 
DBPedia extrahiert Daten aus Wikipedia-Artikeln. Umgekehrt werden struktu- 


3 Siehe zum Beispiel Schindler et al. (2021; https://data.gesis.org/somesci/) für die Erfas- 
sung von Softwares, die in wissenschaftlichen Publikationen erwähnt werden. 
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Abb. 3.8 The Linked Open Data Cloud. In der Linked Open Data Cloud wird erfasst, wie 
die Vokabulare und Datensätze verschiedener Anbieter zusammenhängen. (Quelle: McCrae 
(2021; https://lod-cloud.net)) 


rierte Daten aus Wikidata in die Wikipedia eingebunden. Geografische Datenbe- 
stände werden zum Beispiel durch GeoNames veröffentlicht.” RDF definiert dabei 
nicht, in welchem Format diese Daten abgespeichert werden — für diese sogenannte 
Serialisierung wird auf Formate wie JSON-LD, XML/RDF oder Textformate wie 
Turtle aufgebaut. Viele Anbieter stellen mehrere Formate zur Verfügung (® Re- 
positorium). 

Im Web findet man RDF-kompatible Daten nicht nur als eigenständige Dateien, 
sondern auch direkt eingebettet in die Quelltexte von Webseiten (Abb. 3.9). RDF 
ist damit eine wichtige Grundlage für das Semantic Web,” womit das Ziel verfolgt 
wird, Daten miteinander zu verknüpfen und mit maschinenlesbarer Bedeutung zu 
versehen. Webseitenbetreiber können auf diese Weise strukturiert und standardi- 


33 Siehe Wick (2022; http://www.geonames.org/). 

3% Einige Formate gibt es in unterschiedlicher Komplexität: Turtle ist eine Untermenge von 
Notation3 und eine Übermenge von N-Triples. 

Kine Anlaufstelle zum Verständnis des Semantic Web ist W3C (2019; https://www.w3. 
org/200 1/sw/wiki/). Zur Einbindung strukturierter Daten in Suchmaschinen siehe auch Goo- 
gle (2022b; https://developers.google.com/search/docs/advanced/structured-data/in- 
tro-structured-data). 
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SPIELZEITEN WAHLEN & TICKET KAUFEN! 


MI, 18.12. DO, 19.12. FR, 20.12. 
Spielzeiten in 3D E A Originalversion = a Originalversion = 


Spielzeiten in2D E a Spielzeiten in 3D E a Spielzeiten in 3D E 


Spielzeitenin2D & 


<div itemscope itemtype="http://data-vocabulary.org/Movie"> 


<h1 itemprop="name"> 
Star Wars: Der Aufstieg Skywalkers 
</hl> 


<time itemprop="startDate" 
datetime="2019-12-18T17:00:00+01:00">17:00</time> 


</div> 


Abb. 3.9 Einbettung von strukturierten Daten in Webseiten mit Microdata. Das HTML-Ele- 
ment eines Films ist hier mit dem leeren Attribut itemscope markiert, alle untergeordne- 
ten Angaben beziehen sich darauf. Eigenschaften werden durch das itemprop-Attribut 
ausgezeichnet. Die Ausprägungen sind in den Elementen enthalten. (Quelle: CineStar (2019)) 


siert die Öffnungszeiten eines Unternehmens, Geburtsdaten historischer Personen, 
das Kinoprogramm, Angaben zu den Autor:innen einer Webseite und vieles mehr 
bereitstellen. Schaut man sich den Quelltext einer Webseite genauer an, begegnen 
einem insbesondere folgende Formate: 


e Inden Metadaten einer Webseite finden sich häufig Angaben mit standardisier- 
ten Vokabularen wie Dublin Core,” unter anderem für die Beschreibung der 
Autor:innen oder des Änderungsdatums einer Seite. Mit dem Open Graph Pro- 
tocol” werden in den Metatags zudem Daten erfasst, die beispielsweise in Mes- 
sengern beim Teilen von Links eine Vorschau der Webseite erzeugen. 


36 Siehe DCMI (2022; https://www.dublincore.org/). 
37 Siehe Facebook (2020; https://ogp.me/). 
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e Die bestehende HTML-Struktur kann um spezielle Attribute erweitert werden. 
RFDa* definiert Attribute wie vocab, typeof und property zur Einbet- 
tung von RDF-Daten. Eine Alternative ist Microdata,” das ebenfalls Attribute 
festlegt, die in den HTML-Code eingefügt werden. Benötigt werden vor allem 
itemscope, itemprop und content. 

e Mikroformate wie hCard (Orte, Kontaktinformationen ...) und hReview (Be- 
wertungen von Biichern, Musik, Restaurants ...) sind auf bestimmte Datensor- 
ten spezialisiert.“ Sie verwenden die in HTML ohnehin definierten Standardat- 
tribute class, rel und rev. Mikroformate sind schnell zu erlernen und 
eignen sich damit für einfache Anwendungsfälle. 


Einen Eindruck der Daten, die in eine Webseite eingebettet sind, geben Tools wie 
JSON-LD Playground.*' Über Browser-Plugins” lassen sich die in eine Webseite 
eingebundene Daten auch direkt während des Surfens anzeigen und erkunden. 
Diese Daten können in der Regel in verschiedenen Formaten (= Serialisierungen 
von RDF) heruntergeladen werden. Ohne den Einsatz spezieller Tools können in 
Webseiten eingebettete Daten für wissenschaftliche Analysen über Webscraping 
(siehe Abschn. 7.1) ausgelesen werden. 

Die verschiedenen Technologien und Datenbestände des Semantic Web erschei- 
nen zunächst recht heterogen und unübersichtlich. Gute Anlaufpunkte für solche 
unübersichtlichen Themen sind sogenannte Awesome Lists — eine Zusammenstel- 
lung relevanter Themenaspekte bietet die Liste „Awesome Semantic Web“. Dort 
finden Sie Verweise auf entsprechende wissenschaftliche Zeitschriften und erhal- 
ten Anregungen, inwiefern sich mit dieser Technologie wissenschaftliche Analysen 
durchführen lassen — das Resource Description Framework eröffnet eine Unmenge 


®®Eine Einführung in RDFa findet sich unter W3C (2015; https://www.w3.org/TR/xhtml- 
rdfa-primer/). Weitere Informationen siehe auch RDFa (2022; http://rdfa.info/). 

3 Microdata ist im HTML-Standard definiert, siehe Hickson et al. (2022; https://html.spec. 
whatwg.org/#microdata). 

“ Die Standardisierung findet über ein Wiki statt, siehe Microformats (2022; http://microfor- 
mats.org/). 

“| Siehe JSON-LD (2022; https://json-ld.org/playground/). Ein weiteres Tool ist der HTML 
Structured Data Extractor (Herman 2012; https://www.w3.org/2012/sde/). 

“Zum Beispiel der OpenLink Structured Data Sniffer (OpenLink Software 2021; https:// 
osds.openlinksw.com/). Offnen Sie beispielsweise die Seite der BBC mit klassischen 
Comedy-Programmen (https://www.bbc.co.uk/programmes/) und inspizieren Sie die Daten- 
sammlung über das Plugin. 

® Siehe Semantalytics (2022; https://github.com/semantalytics/awesome-semantic-web). 
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an neuen Fragestellungen und Ansätzen zur Erfassung, Verknüpfung und Analyse 
von Wissen. 


Übungsfragen 


1. Was unterscheidet 1983 von „1983“ und warum ist dieser Unterschied 
wichtig? 

Was legt die Zeichenkodierung einer Datei fest? 

Mit welchen Mitteln können Markdown-Dateien formatiert werden? 
Welche Trennzeichen werden in CSV-Dateien eingesetzt? 

Wie finden Sie heraus, welches Trennzeichen in einer CSV-Datei verwen- 
det wird? Überprüfen Sie die Beispiele im ® Repositorium! 

6. Worin unterscheiden sich die Formate CSV, JSON und XML? 

7. Was sind Unterschiede zwischen relationalen und nichtrelationalen Da- 
tenbanken? 

8. Suchen Sie sich eine Datenbank (siehe Abschn. 2.3) und bestimmen Sie, 
ob es sich hierbei um eine relationale oder eine nichtrelationale Daten- 
bank handelt! 

9. Wie ist ein RDF-Tripel aufgebaut (® Repositorium)? 

10. Was ist das Semantic Web? 
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Zusammenfassung 


Dieses Kapitel führt in Verfahren zur Datenselektion- und transformation ein. 
Sie lernen, wie Sie mit regulären Ausdrücken Suchmuster formulieren, um un- 
strukturierte Daten aufzubereiten, wie Sie Elemente aus Webseiten mit CSS- 
Selektoren und XPath extrahieren und wie Sie Datenbanken mit SQL abfragen. 
Zudem erfahren Sie, wie Matrizen in verschiedene Formen gebracht werden 
und warum sich das lohnt. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


Reguläre Ausdrücke - CSS-Selektoren - XPath - SQL - Wide- & Long-Format - 
Joins - Map-Reduce - Split-Apply-Combine - Matrizen - Matrixmultiplikation 


Daten liegen in vielen unterschiedlichen Geschmacksrichtungen vor (siehe Kap. 3). 
Um daraus ein Gericht zuzubereiten — sie in eine Analyse einzuspeisen und kon- 
krete Fragestellungen zu beantworten — müssen sie meist erst, wie in Abb. 4.1 ver- 
anschaulicht, zusammengestellt und aufbereitet werden. Dazu werden die für eine 
Analyse nötigen Daten zunächst aus dem gesamten Datenbestand selektiert (siehe 
Abschn. 4.1). Anschließend müssen die Daten noch bereinigt und fehlende Daten 
ergänzt werden. Schließlich werden sie so umgewandelt und strukturiert, dass sie 
ausgewertet werden können (siehe Abschn. 4.2). Das Ziel besteht meist darin, die 
verschiedenen Datenformate so zu manipulieren, dass Texte, Listen und Objekte 
am Ende rechteckig werden, sie also in tabellarische Form zu überführen. Für all 
diese Schritte, das Selektieren, Aufbereiten und Transformieren von Daten, werden 
nachfolgend einige Methoden und Werkzeuge vorgestellt. 

Auch wenn dieses Schema eine erste Orientierung für die Datenextraktion 
geben kann, gestaltet sich der tatsächliche Ablauf einer Studie häufig anders. Im 
Verlauf einer Analyse lernt man immer weiter dazu und es kann sich herausstellen, 
dass man noch einmal einen Schritt zurückgehen muss, um die Daten anders aus- 
zuwählen. Auch sind diese Schritte mitunter ineinander verschachtelt. Wenn zum 
Beispiel während der Datenextraktion bereits eine Spracherkennung durchgeführt 
wird, um nur deutsch- oder englischsprachige Inhalte zu behalten, oder wenn nur 
Texte zu festgelegten Hashtags oder zu automatisiert erkannten Themen aus- 
gewählt werden sollen, dann erfordert dies eine frühzeitige Aufbereitung und Ana- 
lyse von Texten. Und auch während der Analyse beschäftigt man sich mitunter mit 
Ausschnitten der Daten, die noch einmal neu aufbereitet werden. Wichtig ist vor 
allem, dass man am Ende angeben kann, wie Erhebung, Auswahl, Aufbereitung 
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Abb. 4.1 Der Dataminingprozess. (Quelle: eigene Darstellung, in Anlehnung an Fayyad 
et al. 1996, S. 41) 


und Analyse der Daten effektiv stattgefunden haben. Nur so lässt sich einschätzen, 
worauf sich die gewonnenen Erkenntnisse beziehen und inwiefern sie ver- 
allgemeinerbar sind. 


4.1 Selektionsverfahren und -sprachen 


Insbesondere schwach strukturierte Daten zeichnen sich dadurch aus, dass sie un- 
übersichtlich sind und eine Unmenge irrelevanter Daten enthalten. Für die spätere 
Analyse werden deshalb zunächst die relevanten Datenpunkte aus dem Material 
extrahiert. Je nach Ausgangsformat eignen sich verschiedene Sprachen, um gezielt 
einzelne Daten anzusprechen und so zwischen Ausgangs- und Zielformat zu über- 
setzen. Im Folgenden werden vier solcher Sprachen vorgestellt. 


1. Besonders flexibel einsetzbar sind reguläre Ausdrücke. Dabei handelt es sich 
um Ausdrücke mit Platzhaltern, die zum Durchsuchen beliebiger Texte ver- 
wendet werden können — dazu gehören auch die in Kap. 3 vorgestellten text- 
basierten Formate CSV, HTML, XML, JSON und SQL-Dumps. In Texten las- 
sen sich mit regulären Ausdrücken etwa leicht Jahreszahlen identifizieren. 

2. Inden Markup-Formaten HTML und XML sind Texte hierarchisch bzw. baum- 
artig vorstrukturiert. Um einzelne Elemente innerhalb dieser Strukturen zu fin- 
den, eignet sich insbesondere XPath. Die Sprache ist speziell für den Zugriff 
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auf XML-basierte Formate konzipiert worden und Teil der Datenbankabfrage- 
sprache XQuery. 

3. CSS-Selektoren sind eine leichtgewichtige Alternative zu XPath, auch wenn 
Cascading Style Sheets (CSS) eigentlich für die optische Formatierung von 
Webseiten entwickelt wurden, etwa um die Schriftfarbe von Überschriften und 
die Abstände zwischen Absätzen festzulegen. 

4. Die letzte in diesem Kapitel besprochene Sprache ist SQL, mit der Daten- 
banken abgefragt werden können. Hier geht es also weniger darum, un- 
strukturierte Daten in Form zu bringen, als vielmehr in bereits stark strukturier- 
ten Daten die relevanten Felder auszulesen. 


4.1.1 Reguläre Ausdrücke 


Computer arbeiten mit Zahlen bzw. mit digitalen Binärwerten. Dennoch lassen 
sich alle Datenformate als Text darstellen, denn auch jede Zahl lässt sich als Zei- 
chen interpretieren. Welche Zahl für welches Zeichen steht, wird über eine so- 
genannte Zeichenkodierung (engl. encoding) festgelegt (siehe Kap. 3). So stehen 
die Zahl 67 in der ASCII-Kodierung für den Großbuchstaben „C“ und die Zahl 77 
für den Buchstaben „M“. Erstaunlich viele Dateien sind intern als Textdateien auf- 
gebaut und auch viele Programmiersprachen können Zahlen als Text interpretieren 
(Datentyp Zeichenkette). 

Liegen Daten in Textdateien vor, können sie mit Editoren wir Atom oder Note- 
pad++ geöffnet werden (siehe Kap. 1). Eine besondere Stärke von Texteditoren ist 
die Suchfunktion. Im einfachsten Fall gibt man dafür eine Zeichenkette ein und es 
werden nach und nach alle Textstellen angesprungen, die mit dem Suchausdruck 
übereinstimmen. Mit Texteditoren können in der Regel auch alle Fundstellen auf 
einmal markiert oder durch einen anderen Ausdruck ersetzt werden. 

Besonders mächtig werden Suchfunktionen dann, wenn sie Platzhalter unter- 
stützen, verbreitet sind das Fragezeichen für einzelne Zeichen und der Stern oder 
ein Prozentzeichen für beliebige aufeinanderfolgende Zeichen. Noch mehr 
Möglichkeiten bieten reguläre Ausdrücke. Reguläre Ausdrücke sind eine Spra- 
che, um Suchmuster zu formulieren.' Sie kommen vor allem dann zur An- 


! Reguläre Ausdrücke (engl. regular expression oder auch kurz regex) sind eine formale Spra- 
che, eine Herleitung und Definition dieser Idee findet sich bei Kleene (1956). Im Gegensatz 
zur kreativen, natürlichen Sprache, die wir sprechen, folgen sie einer genau festgelegten und 
sehr eingeschränkten Grammatik. Reguläre Ausdrücke lassen sich in der sogenannten 
Chomsky-Hierarchie (Chomsky 1956) als Typ 3 verorten, darunter sind Sprachen mit einer 
regulären Grammatik zu verstehen. Das bedeutet höhere Typen und erst recht natürliche 
Sprachen können nicht in allen Facetten durch reguläre Ausdrücke beschrieben werden, aber 
sie eignen sich sehr gut für einfache sprachliche Muster, die durch finite Automaten erfasst 
werden können (Thompson 1968). 
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wendung, wenn unstrukturierte Daten aufbereitet werden müssen. Zum Beispiel 
lassen sich damit Links, Datumsangaben oder andere Daten aus dem Quelltext 
von Webseiten extrahieren. Aber auch bei der Datenmanipulation über 
Programmiersprachen wie R und Python lassen sich reguläre Ausdrücke ein- 
setzen — beispielsweise, wenn in einer Tabelle neue Spalten mit URLs erstellt 
oder wenn beim Text Mining verschiedene Schreibweisen von Wörtern wie aus- 
geschriebene und nichtausgeschriebene Umlaute (ae vs. ä) berücksichtigt wer- 
den sollen. 

Als Übungsmaterial für den Umgang mit regulären Ausdrücken eignet sich 
HTML-Quellcode von Webseiten (siehe Abschn. 3.4). Einen Einblick in den Quell- 
text einer Webseite erhält man in den meisten Browsern wie zum Beispiel Firefox, 
indem man mit der rechten Maustaste auf ein Element der Seite klickt und ELE- 
MENT UNTERSUCHEN auswählt oder die Seite auf dem eigenen Computer ab- 
speichert. Solche Quelltexte sehen wie folgt aus: 


<li class="ep-hover" data-jahr="201" data-kategorie="9" 
data-land="158"> 

<a href="/real-humans-echte-menschen" title="Real 
Humans - Echte Menschen (S&nbsp; 2012-) "> 

<span class="bold">Real Humans - Echte Menschen</span> 
(<abbr title="Schweden">S</abbr>é&nbsp;2012-) </a> 
</li> 

<li class="ep-hover" data-jahr="201" data-kategorie="3" 
data-land="184"> 
<ahref="/real-husbands-of-hollywood" title="Real Husbands 
of Hollywood (USA&nbsp;2013-)"><span class="bold">Real 
Husbands of Hollywood</span> (<abbr title="USA">USA</ 
abbr>é&nbsp; 2013-) </a> 

</li> 


Im Beispiel sind Namen, Lander und Erscheinungsjahre von zwei Serien ent- 
halten, die sich gut über reguläre Ausdrücke extrahieren lassen. Im Browser würde 
der Text wie folgt aussehen, enthält dann aber weniger Informationen: 


Real Humans - Echte Menschen (S 2012-) 
Real Husbands of Hollywood (USA 2013-) 


? Quelle: Imfernsehen (2022; https://www.fernsehserien.de/serien-a-z/r). 
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Es fehlt beispielsweise die URL der Seite mit Detailinformationen zur Serie. 
Auch der im Browser angezeigte Text ist aus Maschinensicht unstrukturiert. Er 
müsste für die Datenverarbeitung zum Beispiel mit regulären Ausdrücken in eine 
Tabellenform überführt werden, bei der Name, Land und Datumsangaben durch 
ein einheitliches Trennzeichen getrennt sind (CSV-Dateien, siehe Abschn. 3.3). 
Kopieren Sie den Beispieltext in einen Texteditor und probieren Sie die folgenden 
Muster und eigene Variationen daran aus (® Repositorium)! 


Platzhalter und Zeichenklassen Die einfachste Form eines regulären Ausdrucks 
besteht aus einer Zeichenfolge, die buchstäblich gesucht wird, zum Beispiel 
ein Wort: 
Hollywood 
Als Platzhalter können nun Zeichenklassen oder Zeichenbereiche verwendet 
werden. Der Punkt kennzeichnet ein beliebiges Zeichen, sodass folgender Aus- 
druck unter anderem die Zeichenfolgen „Bollywood“ oder „Mollywood“ findet: 


.ollywood 


Statt eines beliebigen Zeichens kann in eckigen Klammern ein Bereich an- 
gegeben werden: 


[A-Z]Jollywood 
In diesen eckigen Klammern kann auch eine Liste möglicher Zeichen an- 
gegeben werden, zum Beispiel um auf „Bollywood“ und „Hollywood“ ein- 
zugrenzen: 
[HB] ollywood 
Mehrere Listen können kombiniert werden, etwa um Groß- und Kleinschreibung 
zu berücksichtigen. Denn reguläre Ausdrücke unterscheiden in der Standardein- 


stellung zwischen Groß- und Kleinschreibung: 


[a-zA-Z]ollywood 
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Während bislang formuliert wurde, welche Zeichen enthalten sein dürfen, 
kann auch eine Negativliste definiert werden. Wenn direkt nach der öffnenden 
eckigen Klammer ein Caret ^ angegeben wird, dann werden alle Zeichen ge- 
funden, außer den angegebenen. Das Beispiel findet also ausgerechnet „Holly- 
wood“ nicht: 


[“*H] ollywood 


Diese Technik lässt sich besonders gut in Kombination mit den im Folgenden 
besprochenen Quantoren einsetzen, um etwa alle Zeichen innerhalb doppelter An- 
führungszeichen zu identifizieren. Der folgende etwas kryptische Ausdruck findet 
Zeichenketten, die mit Anführungszeichen beginnen, dann mindestens ein anderes 
Zeichen beinhalten und schließlich mit einem Anführungszeichen enden: 


njangan 


Besonders häufig verwendete Zeichenklassen haben eigene Namen, sodass der 
Tippaufwand verringert wird (Tab. 4.1). Zum Beispiel lassen sich alle alpha- 
numerischen Zeichen mit \w finden und Weißraum mit \ s. 

Für einige Fälle hilfreich sind zudem Modifikatoren, die das Gesamtverhalten 
des regulären Ausdrucks steuern. Damit kann unter anderem eingestellt werden, ob 
ein Suchausdruck Groß- und Kleinschreibung berücksichtigen oder auf mehrere 
Zeilen angewendet werden soll — die konkrete Umsetzung hängt vom verwendeten 
Texteditor bzw. dem Dialekt ab (siehe unten). 


Tab. 4.1 Häufig verwendete Zeichenklassen 


Klasse steht für umfasst 

\d [0-9] Ziffern 

\D [70-9] alles außer Ziffern 

\w [a-zA-Z0-9 ] alphanumerische Zeichen und Unterstrich 

\W [*a-zA-Z0-9 ] alles außer alphanumerischen Zeichen und 
u Unterstrich 

\s [ \r\t\n\£] Weißraum (engl. whitespace) 

\S LA \r\t\n\£] Kein Weißraum (engl. whitespace) 


Quelle: Eigene Darstellung 
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Quantoren Bislang wurden immer nur Platzhalter für einzelne Zeichen formu- 
liert. In der Kombination mit Quantoren lassen sich auch Platzhalter für längere 
Zeichenfolgen festlegen. Ein Quantor gibt an, wie häufig ein Zeichen mindestens 
und wie häufig es höchstens vorkommen darf. Der folgende Suchausdruck findet 
beispielsweise alle vierstelligen Zahlen: 


[0-9] {4,4} 


Zunächst wird hier in eckigen Klammern festgelegt, welche Zeichen vor- 
kommen dürfen. In den geschweiften Klammern wird dann vor dem Komma die 
Mindestanzahl und nach dem Komma die Höchstanzahl der erlaubten Vorkommen 
definiert. Hier werden also Zeichenausdrücke gefunden, die mindestens vier und 
gleichzeitig höchstens vier aufeinanderfolgende Ziffern enthalten. Wenn wie hier 
Minimum und Maximum identisch sind, kann der Ausdruck vereinfacht werden. 
Es reicht die Angabe der gewünschten Anzahl: 


[0-9] {4} 


Man kann die Maximalbedingung auch weglassen, etwa um alle Zahlen mit 
mindestens zwei Ziffern zu finden, die aber beliebig lang sein diirfen: 


[0-9] {2,} 


Für drei besonders häufig genutzte Quantoren gibt es spezielle Symbole. Das 
Fragezeichen entspricht der Bedingung {0,1} und findet alle Zeichenketten, in 
denen ein Zeichen keinmal oder höchstens einmal vorkommt. Das folgende Bei- 
spiel findet deshalb sowohl den Singular ‚Jahr‘ als auch den Plural „Jahre“: 


Jahre? 


Das Pluszeichen wird verwendet, wenn ein Zeichen mindestens einmal vor- 
kommen soll, zum Beispiel für beliebig lange Zahlen: 


[0-9] + 


Das Sternchen ist am lockersten und lässt beliebige Häufigkeiten zu, es ist keine 
Minimal- oder Maximalanzahl festgelegt. Das ist in Kombination mit Zeichen- 
klassen (z. B. in eckigen Klammern) sehr mächtig. Der folgende Ausdruck findet 
alle Wörter, die mit „Jahr“ beginnen. Dazu zählen das Wort „Jahr“ selbst und Wör- 
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ter wie „Jahreszahl“, „Jahre“ oder „Jahres“. Die Suche endet erst dann, wenn kein 
kleiner Buchstabe mehr folgt (sondern zum Beispiel ein Leerzeichen): 


Jahr[la-z]* 


Quantoren sind normalerweise gierig (engl. greedy), das heißt die Suche wird 
so lange fortgesetzt, wie es geht. Soll die Suche dagegen so früh wie möglich ab- 
gebrochen werden, kann das Suchverhalten umgeschaltet werden, indem an einen 
Quantor ein Fragezeichen angehängt wird. 


Maskierung reservierter Zeichen und Sonderzeichen Viele Zeichen haben 
innerhalb regulärer Ausdrücke also eine bestimmte Bedeutung, zum Beispiel 
Fragezeichen, Punkt, Schrägstrich oder auch Klammern. Was macht man nun, 
wenn man genau diese Zeichen finden will? Die Zeichen werden in diesen Fällen 
maskiert (engl. escaped), indem ein Backslash vorangestellt wird. Damit steht der 
Punkt im folgenden Beispiel tatsächlich für einen Punkt und nicht für ein be- 
liebiges Zeichen. 


3\. Januar 


Nun verschiebt sich das Problem auf den Schrägstrich. Die Lösung bleibt 
gleich: Der Schrägstrich wird durch einen Schrägstrich maskiert. Sollen zwei 
Schrägstriche hintereinander gefunden werden, müssen beide maskiert werden, die 
Anzahl der Schrägstriche wird also verdoppelt. 

Eine Besonderheit ergibt sich, wenn mit regulären Ausdrücken in R oder Py- 
thon gearbeitet werden soll (siehe Kap. 5). Da der Schrägstrich innerhalb dieser 
Sprachen bereits eine Bedeutung hat, muss er maskiert werden, damit er überhaupt 
als Maskierungszeichen erkannt wird.’ In R ist also der folgende Ausdruck iden- 
tisch mit dem vorangegangenen Beispiel, wobei reguläre Ausdrücke in vielen 
Programmiersprachen als Zeichenkette gelten und zusätzlich in Anführungs- 
zeichen gesetzt werden: 


"3\\. Januar" 


®Der Grund liegt darin, dass zunächst der Quelltext des Skripts vom Compiler oder Inter- 
preter der Programmiersprache ausgewertet wird. Erst danach wird der Ausdruck an die 
Funktionen zum Verarbeiten (d. h. Parsen) eines regulären Ausdrucks übergeben. 
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Tab. 4.2 Sonderzeichen 


Zeichen Bedeutung 

\n Zeilenumbruch (Line Feed) 

NE Zeilenumbruch (Carriage Return) 
\t Tabulator 


Quelle: Eigene Darstellung 


Die Maskierung der Maskierung mag etwas verwirrend sein. Unter Python gibt 
es die Möglichkeit, Zeichenketten mit einem Präfix als raw-String zu kenn- 
zeichnen.* Dann werden Backslashes nicht als Maskierungszeichen gewertet und 
müssen nicht doppelt maskiert werden: 


r'3\. Januar' 


Der Schrägstrich wird auch eingesetzt, um Sonderzeichen zu markieren. Dazu 
gehören nicht sichtbare Zeichen wie Zeilenumbrüche oder Tabulatoren (Tab. 4.2). 

Unter Windows werden Zeilenumbrüche in Textdateien meistens durch eine 
Kombination aus Line Feed und Carriage Return (\ r\n) gekennzeichnet, während 
in anderen Betriebssystemen ein einfaches Line Feed (\n) ausreicht. Die Suche 
nach Zeilenumbrüchen ist nur selten notwendig, zum Beispiel, wenn sie über 
Suchen & Ersetzen gelöscht werden sollen. Auf diese Weise können erst alle 
Zeilenumbrüche entfernt werden, um dann gezielt an bestimmten Stellen neue 
Zeilenumbrüche einzufügen. Wenn das Ersetzen nicht im Vordergrund steht, ist es 
aber einfacher, mit Ankern zu arbeiten (siehe unten). 

Wenn Unicode unterstützt wird (siehe Kap. 3), dann können Sonderzeichen 
auch über eines der folgenden beiden Muster angegeben werden: 


\u00A0 
\x{00A0} 


In diesen Mustern steht die Folge 00A0 für die Unicode-Nummer des ge- 
schützten Leerzeichens. Bei der Arbeit mit echten Texten stößt man immer wieder 


*Siehe Kuchling (2017; https://docs.python.org/3.3/howto/regex.html#the-backslash-plague) 
und Python Software Foundation (2022a, https://docs.python.org/3/reference/lexical_analysis. 
html#string-and-bytes-literals). 
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auf Situationen, in denen Sonderzeichen nicht auf den ersten Blick erkennbar sind. 
So wie zwischen Groß- und Kleinschreibung unterschieden wird, lassen sich auch 
nicht alle Arten von Leerzeichen über ein einfaches Leerzeichen oder alle Arten 
von Bindestrichen über ein Minuszeichen finden. Im zu Beginn des Kapitels an- 
gegebenen Quelltext kommen sowohl geschützte Leerzeichen (engl. non breaking 
space) als auch ein Halbgeviertstrich (engl. en dash) vor. Im Zweifelsfall kann man 
die Zeichen direkt aus dem Text herauskopieren und in einen regulären Ausdruck 
übernehmen. 


Der Kontext von Ausdrücken: Anker und Lookarounds Ohne weitere Ein- 
grenzung finden reguläre Ausdrücke Muster an beliebigen Stellen im Text. Manch- 
mal ist es aber hilfreich, nur den Anfang oder das Ende eines Texts oder eine Zeile 
zu durchsuchen. Das Muster wird dafür mit einem Caret ^ am Anfang oder mit 
einem Dollarzeichen $ am Ende verankert. Beides kann kombiniert werden. In der 
Regel wird jede Zeile einzeln behandelt, sodass folgendes Suchmuster nur Zeilen 
finden würde, die nichts anderes als das Wort „Jahr“ enthalten: 


“Jahrs 


Eine weitere Möglichkeit, den Kontext eines gesuchten Texts zu berück- 
sichtigen, sind Lookarounds. Hierbei wird angegeben, was in der Umgebung des 
gesuchten Texts vorkommen oder nicht vorkommen darf. Diese Muster gibt es 
einmal als vorausschauende (engl. look ahead) oder zurückschauende (engl. look 
behind) Muster und einmal als positive oder negative Muster. Ein positiver Look- 
ahead würde nur Zeichenketten finden, auf die das definierte Muster folgt: 


[0-9]+(?= Stunden) 


Hiermit würden Zahlen gefunden werden, auf welche ein Leerzeichen und das 
Wort „Stunden“ folgen. Das folgende Muster wird also in runde Klammern gesetzt 
und zu Beginn mit ?= markiert. Ein negativer Lookahead findet Text, auf den nicht 
das angegebene Muster folgt, zum Beispiel alle Zahlen, die keine Stundenangaben 
sind. Anstelle des Gleichheitszeichens wird ein negativer Lookahead mit einem 
Ausrufezeichen? markiert: 


[0-9]+(?! Stunden) 


> Ausrufezeichen werden in vielen Programmiersprachen zur Negation eingesetzt. 
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Nach dem gleichen Prinzip lassen sich Zahlen finden, die auf einen bestimmten 
Text folgen. Das Muster wird wiederum in Klammern gesetzt und mit einem 
Fragezeichen eingeleitet, bei Lookbehinds folgt darauf aber ein Kleinerzeichen. 
Auf diese Weise können etwa Größenangaben gefunden werden: 


(?<=Größe ) [0-9]+ 


Ein negativer Lookbehind wird wieder mit einem Ausrufezeichen anstelle des 
Gleichheitszeichens formuliert und findet dann alle Zahlen, vor denen das an- 
gegebenen Muster nicht steht: 


(?<!Größe ) [0-9]+ 


Im ersten Moment erscheinen Lookarounds nicht nur kompliziert, sondern viel- 
leicht auch unsinnig. Wenn man zum Beispiel eine Stundenangabe finden will, 
dann kann man das auch ohne Lookahead bewerkstelligen, das heißt ohne die zu- 
satzlichen Klammern, das Fragezeichen und das Gleichheitszeichen. Dann aller- 
dings wird nicht nur die Zahl gefunden, sondern auch die Einheit bzw. das Wort. 
Gerade wenn man Daten extrahieren oder durch andere Daten ersetzen will (Su- 
chen & Ersetzen), kann man sich mit Lookarounds auf die wesentlichen Daten 
konzentrieren. Sie sind am Anfang möglicherweise etwas schwer zu verstehen, in 
der einen oder anderen Situation aber doch sehr hilfreich. 


Alternativen, Gruppen und Ersetzungen Lookarounds setzen voraus, dass ein 
Teil des Musters in runde Klammern gesetzt wird. Damit wird der entsprechende 
Teil des Musters gruppiert. Solche Gruppen können in Kombination mit einem 
senkrechten Strich | (auch Pipe genannt) zudem dazu genutzt werden, um 
Alternativen zu formulieren. Die Pipe kann also als „oder“ übersetzt werden. Das 
folgende Muster findet alle Zeichenketten, die mit einer Zahl beginnen und dann 
getrennt durch ein Leerzeichen mit einem der Wörter „Stunde“, „Minute“ oder 
„Sekunde“ fortgesetzt werden: 


[0-9]+ (Stunde |Minute |Sekunde) 
Gruppierungen können verschachtelt werden, das heißt, eingeklammerte Aus- 


drücke können bei Bedarf auch noch einmal eingeklammert werden, um so Alter- 
nativen innerhalb von Alternativen zu formulieren. 
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Aufeinanderfolgende Zeichen werden auch ohne Umklammerung als Gruppie- 
rung erkannt werden. Dies liegt an der Bindungskraft, die zwischen Zeichen be- 
steht und die dafür verantwortlich ist, dass die Zeichen in einer gewissen Reihen- 
folge abgearbeitet werden. Dies folgt der gleichen Logik wie sie bei grundlegenden 
Rechenoperationen vorliegt. Beispielsweise giltin der Mathematik die Regel Punkt- 
vor Strichrechnung: 6 x 5 + 3 = 33. Mit Klammern lässt sich die Reihenfolge und 
somit das Ergebnis verändern: 6 x (5 + 3) = 48. Bei regulären Ausdrücken werden 
standardweise aufeinanderfolgende Buchstaben oder Zahlen als Einheit gesehen. 
Muster in regulären Ausdrücken werden nach folgender Priorität berücksichtigt: 
Klammern vor Quantoren vor Sequenzen vor Ankern und schließlich vor Alter- 
nativen. 

Gruppen sind vor allem dann hilfreich, wenn Teile eines Texts ersetzt wer- 
den sollen. Ein Texteditor wie Notepad++ erlaubt nicht nur die Formulierung 
von Suchmustern, sondern ebenso die Formulierung von Ersetzungen. In dem 
Ersetzungstext kann durch Einklammern auf einzelne Teile der Ausdrücke 
Bezug genommen werden. Dazu werden die runden Klammern von links nach 
rechts durchgezählt (immer nur die öffnende Klammer). So findet das folgende 
Beispiel eine Datumsangabe in dem in Europa verbreiten Format: TT.MM. 
JJJJ. Um nun einzelne Teile adressieren zu können, werden zunächst im Such- 
muster Teile durch runde Klammern gruppiert, zusätzlich müssen die Punkte 
maskiert werden: 


(L0-9]{2})\.([0-9]{2})\.([0-9]{4}) 


Sollen nun einzelne Einheiten ersetzt oder vertauscht werden, dann wird dazu 
im Ersetzungsausdruck ein Backslash gefolgt von der Nummer der Klammer ein- 
gefügt. Wenn im Beispiel die Datumsangabe durch JJJJ.MM.TT. ersetzt werden 
soll, können die einzelnen Gruppen wie folgt vertauscht werden. 


NIN ZAI 
Bei Ersetzungen müssen Punkte und andere Zeichen nicht maskiert werden. 
Der Vollständigkeit halber sei angemerkt, dass auf den gesamten gefundenen Text 


mit der Nummer \ 0 Bezug genommen werden kann. 


Dialekte Für das Erlernen von regulären Ausdrücken ist wie bei jedem Lernen von 
Sprachen viel Übung nötig. Die bislang angesprochenen Möglichkeiten stellen den 
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Kern von regulären Ausdrücken dar und sollten ausreichen, um sich am Anfang 
zurechtzufinden. Weitere Möglichkeiten finden Sie in vielzähligen Tutorials.° Ein 
Tool, das beim Zusammenstellen von regulären Ausdrücken behilflich sein kann, ist 
RegExr.’ Hier können Sie zunächst einen unstrukturierten Text eingeben und an- 
schließend reguläre Ausdrücke formulieren, die Ergebnisse werden im Text markiert. 


Zu beachten ist dabei, dass verschiedene Programme - fast so wie bei mensch- 
lichen Sprachen — verschiedene Dialekte sprechen. Am häufigsten sind POSIX- 
oder PCRE-kompatible Dialekte anzutreffen. Die jeweils korrekte Syntax sollte 
man in der Dokumentation der jeweiligen Software nachschlagen. In Notepad++ 
und R kommt PCRE zum Einsatz, in Python wird ein PCRE-ähnlicher Dialekt ver- 
wendet. Bevor Sie nun aber die Dokumentationen wälzen, probieren Sie erst ein- 
mal selbst aus, wie weit Sie mit den hier angeführten Möglichkeiten kommen. 


Anwendungsbeispiel: URLs extrahieren Reguläre Ausdrücke werden für das 
Extrahieren von Daten zwar häufig in Kombination mit Programmiersprachen wie 
R oder Python eingesetzt (siehe Kap. 5). Aber auch in Texteditoren lässt sich mit 
etwas Kreativität viel erreichen. Sie können damit zum Beispiel alle URLs aus 
einem Dokument auslesen. Im folgenden Beispiel geht es um die Frage, wie eine 
Webseite mit anderen Online-Diensten vernetzt ist. Grundsätzlich sind verschiedene 
Webseiten über URLs verlinkt, die im Quelltext zu finden sind (siehe Abschn. 2.1). 


Eine Möglichkeit, die verlinkten Seiten zu identifizieren, bestünde also in der 
Analyse des Quelltexts ähnlich wie beim Webscraping. Gerade bei dynamischen 
Seiten werden aber auch noch später durch Skripte weitere Inhalte nachgeladen 
(siehe Abschn. 7.1). Um diese Abfragen nachgeladener Inhalte zu sehen, öffnen 
Sie im Browser die Entwicklerkonsole (in der Regel mit der Taste F12) und wech- 
seln Sie in den Reiter Netzwerkanalyse (Abb. 4.2). Wenn Sie nun eine Webseite 
aufrufen, werden alle Zugriffe auf weitere Ressourcen im unteren Bereich proto- 
kolliert. Eine Webseite setzt sich meistens aus sehr vielen Einzelteilen zusammen; 
der Aufruf der Seite https://www.golem.de zieht zum Beispiel aktuell über 600 
Abfragen nach sich. Wenn Werbeblocker deaktiviert sind, besteht ein Teil davon aus 
Werbeeinblendungen wie in der Abbildung am rechten Rand zu sehen ist. Mit der 
Funktion Netzwerkanalyse können Sie nachvollziehen, welche Tracking-Dienste 
oder externe Werbeinhalte in eine Seite eingebunden sind. 


6Siehe zum Beispiel unter Goyvaerts (2021; https://regular-expressions.info). 
7Siehe Skinner (2021; https://regexr.com/). 
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Abb. 4.2 Hintergrundabfragen einer Webseite. (Quelle: eigene Darstellung; Golem (2022; 
https://www.golem.de)) 


Um diese Daten weiterzuverarbeiten, können sie mit einem Rechtsklick als 
HAR-Format abgespeichert werden. Das HAR-Format ist ein JSON-Format (siehe 
Abschn. 3.5) und kann mit entsprechenden Programmen weiterverarbeitet werden, 
aber auch mit einem einfachen Texteditor. Öffnen Sie die exportierte Datei an- 
schließend mit einem Texteditor (siehe Kap. 1). In den ersten Zeilen werden all- 
gemeine Daten zur Abfrage angegeben. Hinter dem Wert entries folgt eine Liste 
aller Abfragen. Im Schlüssel request . url ist für jede Abfrage die URL angegeben. 

Da jede dieser Zeilen gleich formatiert ist, können Sie einfach danach suchen 
(Abb. 4.3). Das folgende Suchmuster findet alle Zeilen, die mit einer beliebigen 
Anzahl von Leerzeichen beginnen und dann den Schlüssel "url" (inklusive der 
Anführungszeichen) enthalten, sofern Sie im Texteditor den Suchmodus auf regu- 
läre Ausdrücke einstellen: 


A * url" 
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4. Alle hervorheben 


2 "log": { 
3 "yersioj 1. Suchausdruck 


4 "creator": 
5 "name": "F Hervorheben E] 
6 "version": suchen Ersetzen InDateÑgguchen Hervorheben 
7 hr - <= 
z "Browser": M Suchen nach: | $ url": v Alle hervorheben 
"name": "E Hervorhebung aufheben 
10 "version": [Lesezeichen setzen In Auswahl Schließen 


T1 }r Für jede Suche löschen 
= "pages": i eo EN 2. Funktion Lesezeichen 
3 { oz 
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= = O Normal @ Wenn inaktiv 
ee oncas O Erweitert (\n, Y, \t, \0, We...) O Immer 
is "onLoa @ Reguläre Ausdrücke []. findet y und \n I 


} 


55 un 3. Modus Reguläre Ausdrücke 
entries": [ 


23 { 

24 "pageref": "page_1", 

"startedDateTime": "2019-11-26T21:25:51.192+01:00", 

26 "request": { 

27 "bodySize": 0, 

28 "method": "GET", 

"url": "https://static.criteo.net/images/pixel.gif?ch=1", 
30 "httpVersion": "HTTP/2.0", 


31 "headers": [ 


Abb. 4.3 Zeilen mit regulären Ausdrücken in Notepad++ hervorheben. (Quelle: eigene 
Darstellung) 


Mit dem Caret ^ wird der Text am Zeilenanfang verankert (siehe oben), sodass 
nur die Zeilen gefunden werden, die mit dem Ausdruck beginnen.’ 

Wenn Sie nun eine Suche ausführen, sollten alle Zeilen mit den URLs an- 
gesprungen werden. Damit diese Zeilen weiterverarbeitet werden können, wechseln 
Sie zum Beispiel in Notepad++ in den Reiter HERVORHEBEN, aktivieren Sie die Funk- 


8 Diese Vorgehensweise funktioniert nur dann, wenn die gesuchten Texte in einzelnen Zeilen 
stehen und die Zeilen sich eindeutig identifizieren lassen. Sollte das nicht der Fall sein, müs- 
sen Sie mit Suchen & Ersetzen erst Zeilenumbrüche vor und nach der gesuchten Zeichen- 
kette einfügen. Für die Suche nach URLs werden die nötigen regulären Ausdrücke allerdings 
sehr komplex, siehe zum Beispiel Silva (2008; https://stackoverflow.com/questions/161738/ 
what-is-the-best-regular-expression-to-check-if-a-string-is-a-valid-url). In diesen Fällen ist 
eine Verarbeitung von JSON mit R oder Python günstiger. 
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tion LESEZEICHEN SETZEN und klicken Sie schließlich auf die Schaltfläche ALLE 
HERVORHEBEN. Im SUCHEN-Menü (in der oberen Menüleiste, außerhalb der Such- 
funktion) finden Sie weit unten einen Punkt LESEZEICHEN mit verschiedenen Optio- 
nen. Sie können hier zum Beispiel alle Zeilen mit Lesezeichen in die Zwischenablage 
kopieren. Um damit weiterzuarbeiten, legen Sie mit Notepad++ ein neues Text- 
dokument an und fügen Sie den Inhalt der Zwischenablage ein — so haben Sie mit 
einfachen Mitteln alle Drittanbieter identifiziert, auf die eine Webseite zurückgreift. 


4.1.2 CSS-Selektoren 


Reguläre Ausdrücke sind mächtig, wenn es um die Behandlung von un- 
strukturiertem Text geht. Allerdings ist die Formulierung von regulären Aus- 
drücken in einigen Fällen auch aufwendig und fehleranfällig. Wenn beispielsweise 
aus einem HTML-Quelltext ein bestimmtes Element extrahiert werden soll, das 
selbst wieder Tags enthält, ist es nahezu unmöglich, einen verständlichen und den- 
noch alle Spezialfälle umfassenden Ausdruck zu formulieren. Das folgende Bei- 
spiel wäre ein solcher Fall, wenn man das komplette <1i>-Element mit allen In- 
halten inklusive der Unterelemente erfassen will: 


<li class="ep-hover" data-jahr="201" data-kategorie="9" 
data-land="158"> 


<ahref="/real-humans-echte-menschen"title="Real 
Humans - Echte Menschen (S&nbsp; 2012-)"> 


<span class="bold">Real Humans - Echte Menschen 
</span> (<abbr title="Schweden">S</abbr>&nbsp; 
2012-)</a> 


</li> 


Handelt es sich um Text, der einem definierten Format wie XML oder HTML 
folgt, besteht eine bessere Lösung darin, den Text mit einem darauf spezialisier- 
ten Parser einzulesen. Ein Parser erkennt einzelne Elemente und reproduziert 
die Struktur der Dokumente so, dass darauf gezielt zugegriffen werden kann. 
Der Quelltext ist danach in einem sogenannten Document Object Model (DOM) 
erfasst. Die direkt untergeordneten Elemente werden im DOM als Kindelemente 
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(engl. children) bezeichnet, alle untergeordneten Elemente, also auch Kinder 
von Kindern, als Nachfahren (engl. descendants). Die direkt übergeordneten 
Elemente heißen Eltern (engl. parents) und die Kette aller übergeordneten Ele- 
mente Vorfahren (engl. ancestors). So kann beispielsweise das <1i>-Element 
nicht nur als Abfolge der Zeichen <, 1, i sowie > eingelesen, sondern vielmehr 
als Element mit den Kindelementen <a> sowie <span> geparsed werden. In 
vielen Programmiersprachen gibt es Parser, die eine Navigation in der 
DOM-Struktur ermöglichen, zum Beispiel verarbeitet das Python-Modul Beau- 
tiful Soup die Formate HTML und XML (Richardson 2022; siehe Abschn. 7.1). 

Einzelne Elemente im DOM können anschließend über CSS-Selektoren identi- 
fiziert werden. CSS steht für Cascading Style Sheets und wird normalerweise dazu 
verwendet, die Darstellung von HTML-Seiten vorzugeben. In einer CSS-Datei 
kann etwa wie folgt festgelegt werden, dass alle Links grün erscheinen: 


a { color:green; } 


Der erste Teil dieser Angabe ist ein CSS-Selektor, der alle a-Elemente adres- 
siert. Es folgt in geschweiften Klammern die Angabe der Formatierung. Für die 
Datenerhebung ist die Formatierung unwichtig, aber wenn ein Text etwa mit Beau- 
tiful Soup geparsed wurde, können über CSS-Selektoren einzelne Elemente zur 
Extraktion angesteuert werden. 

Der einfachste CSS-Selektor benennt wie im Beispiel einfach den Tag-Namen — 
welcher im Quellcode direkt auf die öffnende spitze Klammer < folgt. Bezeichner, 
die mit einem Punkt beginnen, selektieren alle Elemente mit einem bestimmten 
Klassen-Attribut. Bezeichner mit einem Doppelkreuz # selektieren die Elemente 
über eine ID. Klassen- und ID-Attribute finden sich hinter dem Tag-Namen und 
sind nach dem Muster class="bezeichnung" bzw. id="bezeichnung" 
angegeben. Diese Notationsvarianten lassen sich auch kombinieren (Tab. 4.3). 
Wenn der Elementname, eine oder mehrere Klassen oder eine ID direkt ohne Leer- 
raum aneinander gekettet werden, dann müssen alle diese Merkmale auf das aus- 
gewählte Element zutreffen. 

Um dagegen in die Hierarchie eines Dokuments einzutauchen, werden meh- 
rere der Selektoren nacheinander notiert. Dadurch werden nur diejenigen Ele- 
mente selektiert, die entsprechende Vorfahren haben. Soll ein Element ein direktes 
Kindelement sein, wird dies mit dem >-Zeichen zwischen den Angaben aus- 
gedrückt. Ohne >-Zeichen werden auch alle Nachfahren adressiert, die nicht un- 
mittelbare Kinder des Elternelements sind. Um einzelne Elemente zu erfassen, 
hangelt man sich also im ersten Schritt an der Hierarchie entlang (Abb. 4.4). Wenn 
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Tab. 4.3 Beispiele für CSS-Selektoren 


Selektor Bedeutung Beispiel 
a Alle a-Elemente <a href="/real-humans">Real 
Humans</a> 
.bold Alle Elemente mit der <span class="bold hover">Real 
Klasse „bold“ Humans </span> 
.bold.hover | Alle Elemente mit den <span class="bold hover">Real 
beiden Klassen „bold“ und | Humans </span> 
„hover“ 
#footer Das Element mit der ID <div id="footer">5 
„footer“ Ergebnisse</div> 
a.extern Alle a-Elemente mit der <a href="www.example.org" 
Klasse „extern“ class="extern">Example</a> 
p#teaser Alle p-Elemente mit der | <p id="teaser">Eine 
ID „teaser“ Einleitung leitet ein.</p> 
pa Alle a-Elemente innerhalb |<p id="teaser"><span>Eine <a 
von p-Elementen href="example.org">Einleitung</ 
a></span> leitet ein.</p> 
p>a Alle a-Elemente, die <p id="teaser">Eine<a 
direkt einem p-Element href="example.org">Einleitung</ 
untergeordnet sind a> leitet ein.</p> 


Quelle: eigene Darstellung 


die Elemente dann auch ohne Berücksichtigung der Hierarchiestufen eindeutig 
identifizierbar sind, kann der Ausdruck vereinfacht werden. Im Beispiel, solange 
es nur ein einziges span-Element gibt, würden die folgenden vier Ausdrücke alle 
das Gleiche leisten: 


li > a > span.bold 
li a span.bold 
span.bold 

span 


Die Beispiele umfassen die wichtigsten Fälle von CSS-Selektoren. Es sind da- 
rüber hinaus deutlich komplexere Ausdrücke möglich, bei denen etwa die Anzahl 
vorangegangener Elemente, der Textinhalt eines Attributs oder weitere Be- 
dingungen erfüllt sein müssen.’ 


°Für eine detailliertere Einführung in CSS-Selektoren, mit der Option zum Ausprobieren, 
siehe beispielsweise Selfhtml (2022;  https://wiki.selfhtml.org/wiki/CSS/Tutorials/Se- 
lektoren). 
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>a > span.bold 


<11> 
<a href="/real-humans-echte-menschen"> 
<span class="bold"> 
Real Humans Echte-Menschen 
</span> 
<a> 
</11> 


XPath: rag albeit /a /span[@class='bold'] 


Abb. 4.4 Die hierarchische Struktur von CSS-Selektoren (oben) und XPath (unten) im Ver- 
gleich. (Quelle: eigene Darstellung) 


CSS-Selektoren spielen beim Webscraping eine wichtige Rolle (siehe Kap. 7) 
und funktionierende Ausdrücke können über die Entwicklerkonsole des Browsers 
(aufrufbar über die Taste F12) gefunden werden. Steuern Sie dafür das gewünschte 
Element an und klicken Sie mit der rechten Maustaste auf die entsprechende Zeile 
in der Entwicklerkonsole, dort kann ein Selektor in der Regel über Copy SELECTOR 
in die Zwischenablage kopiert werden. Diesen CSS-Ausdruck können Sie dann 
zum Beispiel mit Facepager'? ausprobieren. Dazu fügen Sie die URL einer Web- 
seite in Facepager als Startknoten ein, laden die Seite herunter und passen dann 
mittels CSS-Ausdrücken die angezeigten Spalten an (® Repositorium). 


4.1.3 XPath 


Während CSS für die Gestaltung von Webseiten konzipiert wurde, ist XPath direkt 
für die Adressierung von Daten in XML-verwandten Dokumenten entworfen wor- 
den (Abb. 4.4). Auch hier erfolgt die Auswahl von Elementen zunächst über deren 


10 Siehe Jünger und Keyling (2022; https://github.com/strohne/Facepager). 
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Namen. Ein Dokument wird wiederum als hierarchische Baumstruktur aufgefasst, 
die mit Achsen wie beispielsweise child (untergeordnetes Element), parent 
(übergeordnetes Element) oder preceding und following (vorangegangenes 
oder nachfolgendes Element) durchsucht wird. Der folgende Ausdruck würde aus- 
gehend vom htm1-Element über das body-Element alle Tabellen table, darin 
die Zeilen tr und schließlich die Zellen td finden. 


html/child: :body/child: :table/child::tr/child::td 


Die Angabe der chi 1d-Achse kann im Gegensatz zu anderen Achsen entfallen, 
sodass der folgende vereinfachte Ausdruck die gleiche Funktion erfüllt: 


html/body/table/tr/td 
Das Wurzelelement eines Dokuments wird durch den vorgestellten Schrägstrich 
angesprochen. So würde der folgende Ausdruck immer noch das gleiche Ergebnis 
liefern, wenn das Wurzelelement html ist: 
/body/table/tr/td 
Sollen Elemente in beliebiger Tiefe des Baums angesprochen werden, kann der 
doppelte Schrägstrich verwendet werden. So werden sämtliche td-Elemente 
gefunden: 
//td 
Zusätzliche Bedingungen können in jedem Selektionsschritt in eckigen Klam- 
mern angegeben werden. Im einfachsten Fall gibt man die Nummer des Elements 
an, etwa um das dritte td-Element zu finden: 
//ta[3] 


Sinnvoll kann auch mit dem @-Zeichen die Eingrenzung auf Attribute sein: 


//tdl@class == 'data'] 
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Da Klassenattribute mehrere Werte enthalten können (siehe das Beispiel in 
Tab. 4.3), ist die Funktion contains () nützlich. Hiermit muss das Attribut 
nicht identisch mit dem Suchausdruck sein, sondern kann auch weitere Texte 
enthalten: 


//talcontains (@class, 'data')] 


Die bisherigen Ausdrücke zielen genauso wie CSS-Selektoren immer auf die 
Tags oder Elemente ab. Ein Element besteht aus dem Elementnamen, Attributen 
und kann Text enthalten (siehe Kap. 3). Anders als bei CSS sind auch Textinhalte 
und Attribute direkt als sogenannte Knoten ansprechbar. Mit XPath können die 
Attribute also nicht nur zur Auswahl von ganzen Elementen verwendet, sondern 
auch direkt referenziert werden, sodass ein Element wie <a href="www. 
example.org">Beispielseite</a> nach dem Extrahieren nicht noch 
weiter zerlegt werden muss, um an die Inhalte zu gelangen. Die folgenden beiden 
Ausdriicke extrahieren einmal den Textinhalt aller Links und einmal alle Werte der 
href-Attribute, das heißt die Zieladressen von Links: 


//a/text() 
//a/@href 


XPath unterstiitzt zudem Funktionen, um die gefundenen Knoten weiterzuver- 
arbeiten. Niitzlich ist neben der im letzten Beispiel verwendeten text () -Funk- 
tion etwa die st ring () -Funktion, um den gesamten Text eines Elements zu ex- 
trahieren, selbst wenn darin weitere Elemente verschachtelt sind. Das ist zum 
Beispiel bei Tabellenzellen der Fall, wenn sie Links oder formatierten Text ent- 
halten. Das Beispiel extrahiert den Text der ersten Tabellenzelle im Dokument: 


string(//td[1]) 
Die Sprache XPath ist komplexer aufgebaut als CSS (Tab. 4.4), erlaubt dafiir 


aber die Formulierung sehr präziser Bedingungen.'! Mit diesem Wissen lassen sich 
zum Beispiel Tabellen aus Wikipedia-Seiten in CSV-Tabellen umwandeln. Probie- 


!! Eine umfangreichere Einführung in XPath finden Sie unter anderem unter Selfhtml (2021; 
https://wiki.selfhtml.org/wiki/XML/XSL/XPath). 
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Tab. 4.4 Beispiele für XPath-Ausdrücke 


Selektor Bedeutung Beispiel 
//a Alle a-Elemente <a href="/real- 
humans">Real Humans</a> 
//.[contains Alle Elemente mitder |<span class="bold 
(@class, ‘'bold‘)] | Klasse „bold“ hover">Real Humans - Echte 
Menschen</span> 
//. Das Element mit der ID <div id="footer">5 
[@id='footer') ] | „footer“ Ergebnisse</div> 
//alcontains Alle a-Elemente mit <a href="www.example.org" 
(@class, der Klasse „extern“ class="extern">Example</a> 
"extern') ] 
//p Alle p-Elemente mit <p id="teaser">Eine 
[@id='teaser') ] | der ID „teaser“ Einleitung leitet ein.</p>" 
//p//a Alle a-Elemente <p id="teaser"><span>Eine 
innerhalb von <a href="example.org"> 
p-Elementen Einleitung</a> </span> 
leitet ein.</p> 
//p/a Alle a-Elemente, die <p id="teaser">Eine <a 
direkt einem p-Element | href="example.org"> 
untergeordnet sind Einleitung</a> leitet 
ein.</p> 


Die Selektoren sind in der Tabelle aus Darstellungsgründen umgebrochen. Sie funktionieren 
nur ohne Umbrüche und Leerzeichen. Quelle: eigene Darstellung 


ren Sie es mit der Importfunktion von Google Spreadsheets'? oder mit Facepager’* 
aus! In der Anwendung Facepager finden Sie auch fertige Presets mit aus- 
formulierten XPath-Ausdrücken, um Tabellen zu extrahieren (® Repositorium). 


4.1.4 SQL 


Umfangreiche Datenbestände, die sich über mehrere Tabellen verteilen, liegen häufig 
in relationalen Datenbanken vor (siehe Kap. 3). Solche Datenbanken werden unter 
anderem in Content-Management-Systemen eingesetzt, angefangen von kleinen 
Wordpress-Seiten bis zu großen Projekten wie Wikipedia. Hier besteht die Heraus- 
forderung nicht vorrangig darin, die Daten in einer unübersichtlichen Struktur zu 
identifizieren, sondern aus den gesamten Beständen die gewünschten Daten auszu- 
wählen. Ein Standard für die Abfrage von relationalen Datenbanken ist die Structu- 


1? Siehe Google (2022c; https://spreadsheets.google.com). 
13 Siehe Jünger und Keyling (2022; https://github.com/strohne/Facepager). 
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® scotchbox\piwik\log.link visit_action\ - HeidiSQL 9.0.5125 - a x 
Datei Bearbeiten Suchen Werkzeuge Gehezu Hilfe P Spenden 
A- PLI IF ETITT) = = FR 


i) Host: 127.0.0.1 


7022 240 Tritan 


=] Tabelle: log_link_visit_action fE 


> 


Datenbank: piwi 


2 idinkva 2 


G) Datenbankfilter a Tabellenfilter ] 


v AN scotchbox 


information_schema 
idvisit 


idvisitor 


on 1.959.279 oo” 
performance_schema 039. o 
via piwik 2,5 GiB o 
access 16,0 KiB rs 106.076 
goal 16,0 KiB AS9D40DDO62BADE 3.721 
logger_messag; 16,0 KiB fx 1658EDCOSBF4B226 2.691 
E log.action, 7.039.160 OxFAS9D40DD062BADE ip: 5.377 
7.039.159 32 0x8398E87ED2EDCDF8 5.377 
= ee 5.377 
52.586 
Struktur der Daten der ; 5.731 
Angaben Angaben zur z 5 0 
ausgewählten ausgewählten EG 


zum Server Datenbank Tabelle Tabelle 


segment 16,0 kis 7.039.151 0x 1658EDCO9BF 45226 1.959.273 
i 7.039.149 4 0x74027B60F1AB01CD 1.959.272 
sequence 16,0 KiB 
= 7.039.148 1 0xB0710CC6231CE286 1.959.271 
oe 7.039.147 32 OxFAS9D40D0062BADE 1.959.267 F ter fü 
039. x 6 .959.26 
E site 7.039.146 1 0xB0710CC6231CE286 1.959.271 enster tur 
site_setting 7.039.145 32 OxFASSD40DD062BADE 1.959.267 S QL-Abfragen 
—| site_url 7.039.144 1 0x9C30B262B4EE2SBC 1.959.260 
user 32,0 KiB 7920142 20 AYAAFFNSNSESFENANR 1 asa asn hi 
< 


user dashboard 16.0KiB ¥ 


162 SHOW CREATE TABLE `piwik`.` rep 
163 SHOW CREATE TABLE ~ piwik” .” log 
164 SHOW CREATE TABLE piwik” .~ log ; 
165 SELECT “idvisit’, “idsite’, "idvisitor‘, ~visit_last_action_time’, "config_ id’, “location_ip’, “user_id, ~visit_first_action_time™, 
166 SHOW CREATE TABLE `piwik`.` l i 

167 SHOW TABLE STATUS LIKE ‘log 
168 SHOW CREATE TABLE “piwik” .°1 
169 SELECT * FROM “piwik” .~log_1 t_action” ORDER BY ~server_time” DESC LIMIT 1000; 

170 SHOW CREATE TABLE “piwik”. log li sit_action’; 

171 SHOW TABLE STATUS LIKE 'log_link_visit_action’; 5 


ling; 


visit_action’; 


1:1 © Verbunden: 00:26h N, MySQL 5.5.55 Betriebszeit: 01:05 h UTC: 2017-11-10 14:39 ® Leerlauf. 


Abb. 4.5 Heidi-SQL als Beispiel für einen SQL-Client unter Windows. (Quelle: eigene 
Darstellung) 


red Query Language (SQL). Dazu werden in einem Datenbank-Client Abfragen for- 
muliert, die vom Datenbankmanagementsystem (DBMS) bearbeitet werden. 

Die Datenbanken selbst werden meistens auf Servern installiert. Gängige server- 
basierte Datenbankmanagementsysteme im Open-Source-Bereich sind MySQL und 
MariaDB.'* Sie können entsprechende Datenbank-Server durchaus auf dem eigenen 
Computer einrichten, um etwa die Wikipedia-Datenbank zu spiegeln (siehe 
Abschn. 6.3). Der Zugriff auf die Daten kann dann über vier Wege erfolgen: 


1. Uber die Kommandozeile wird eine eigene mySQL-Kommandozeile auf- 
gerufen, um darin SQL-Befehle einzugeben. 

2. Auf dem Datenbank-Server werden spezielle Weboberflächen wie phpMyAd- 
min oder Adminer eingerichtet, um SQL-Befehle über den Browser zu 
verschicken. 


'4Siehe Oracle (2021; https://www.mysql.com/) und MariaDB Foundation (2022; https:// 
mariadb.org/). 
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@ DB Browser for SQLite - E:\data\sqlite\imdb.db 
Datei Bearbeiten Ansicht Hilfe 


Neue Datenbank {4} Datenbank öffnen Änderungen 


SQL-Abfrage 
Datenbankstruktur Daten durchsuchen Pragmasbearbeiten SQL ausführen 9 

BR > N 
sai 
I SELECT people.name, crew.category, titles.primary title, titles.premiered FROM crew 
2 JON titles ON crew.title_id = titles.title_id 
3 JOIN people ON crew.person_id = people.person_id 
4 WHERE category = ‘director’ AND premiered > 2015 
5 ORDER BY titles.premiered, titles.primary title LIMIT 100 Ergebnis 
6 
< >| 

name category primary_title premiered A 
23 Rolando Colla director 7 Days 2016 
24 Andreas Heller director 90 Minuten 98 - Die SV Darmstadt 98 Chronik 2016 
25 Nadège Loiseau director ABun in the Oven 2016 
26 Gore Verbinski director A Cure for Wellness 2016 
27 Darren Thornton director A Date for Mad Mary 2016 
28 Susanne Bohlmann director A Day in Their Shoes 2016 
29 Christopher Hawkins director A Day in Their Shoes 2016 v 
100 Reihen innerhalb von 256ms zurückgegeben von: SELECT people.name, crew.category, A| 
titles.primary title, titles.premiered FROM crew | 
JOIN titles ON crew.title_id = titles.title id | Gea 
JOIN people ON crew.person_id = people.person_id | 
WHERE catecory = ‘director! AND nremiered > 201 x 


Abb. 4.6 DB Browser for SQLite. (Quelle: eigene Darstellung) 
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E] Trigger (0) 


Struktur der 
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3. Desktop-Anwendungen wie DBWeaver, DataGrip oder HeidiSQL (Abb. 4.5) 
laufen auf dem eigenen Computer. Auch Entwicklungsumgebungen wie RStu- 


dio beinhalten Tools zum Umgang mit Datenbanken. 


4. Datenbanken können über R- oder Python-Skripte und mit vielen anderen 


Programmiersprachen angesprochen werden. 


Die verschiedenen Datenbank-Clients ähneln sich meistens und bieten mindestens 
getrennte Ansichten für die Verwaltung der Tabellenstruktur und für den Zugriff 


auf die Tabellendaten. 


Eine einfache und verbreitete Alternative zu Server-Datenbanken ist SQLite." 
Diese Datenbanken bestehen aus einer einzigen Datei, die problemlos weiter- 
gegeben werden kann und auch keine Server-Installation benötigt. Der Zugriff ist 
über Programme wie DB Browser for SQLite'® (Abb. 4.6) möglich, aber auch di- 
rekt über R und Python (siehe Kap. 5). Ein Beispiel für eine SQLite-Datenbank 
finden Sie im ® Repositorium. Wenn Sie sich DB Browser for SQLite installieren 


15 Siehe SQLite Development Team (2022; https://www.sqlite.org/). 
16 Siehe DB Browser for SQLite (2022; https://sqlitebrowser.org/). 
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und die Datenbank damit öffnen, können Sie die folgenden SQL-Beispiele direkt 
nachvollziehen." 
Ganz grundsätzlich lassen sich drei Arten von SQL-Befehlen'® unterscheiden: 


1. Data Definition Statements werden dazu eingesetzt, die Datenbankstruktur zu 
erzeugen. Beispielsweise legen Sie mit einem CREATE DATABASE-Befehl 
eine Datenbank an. 

2. Data Manipulation Statements werden dazu eingesetzt, Daten zu ändern, ein- 
zufügen oder zu löschen. Mit INSERT-Befehlen werden Daten in eine Daten- 
bank importiert, mit UPDATE verändert und mit DELETE gelöscht. 

3. Eine Unterkategorie der Data Manipulation Statements sind Befehle zur Ab- 
frage von Daten. Am wichtigsten ist dafür der SELECT-Befehl. 


5 


Wenn mehrere Befehle hintereinander ausgeführt werden sollen, dann wird jeder 
Befehl mit einem Semikolon abgeschlossen. Für die einfache Abfrage von Daten 
ist das aber nicht nötig. Eine Abfrage aller Spalten und Zeilen einer Tabelle sieht 
wie folgt aus, wobei titles eine Tabelle in der Datenbank bezeichnet: 


SELECT * FROM titles 


Diese Abfrage lässt sich um verschiedene Elemente erweitern. So kann statt des 
Sternchens eine Liste der gewünschten Spalten angegeben werden. Die Angaben 
title id, genres und primary title bezeichnen Spalten in der Ta- 
belle titles: 


SELECT title id, genres, primary title FROM titles 


Die Daten können auch sortiert werden. Im folgenden Beispiel wird nach der 
Spalte premiered (Erscheinungsjahr) sortiert, die Angabe ASC (engl. ascending 
= aufsteigend) bewirkt eine aufsteigende Sortierung. Diese Angabe kann weg- 
gelassen werden oder durch die Angabe DESC (engl. descending = absteigend) 
ersetzt werden: 


"Weitere Möglichkeiten zum Ausprobieren von SQL-Befehlen finden Sie bei W3Schools 
(2022d; https://www.w3schools.com/sql/) oder Feasel (2021; http://sqlfiddle.com/). 

'®Eine Dokumentation mit allen SQL-Befehlen und der Syntax findet sich in den Hand- 
büchern des jeweiligen DBMS, zum Beispiel im MySQL-Handbuch (Oracle 2022b; https:// 
dev.mysql.com/doc/). 
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SELECT * FROM titles 
ORDER BY premiered ASC 


Außerdem kann die Menge der Daten mit einer WHERE-Angabe eingeschränkt 
werden. Das heißt, es wird danach gefiltert, unter welchen Bedingungen Zeilen 
ausgewählt werden sollen. Im folgenden Beispiel werden nur Zeilen zurück- 
gegeben, in denen in der Spalte premiered der numerische Wert 2019 steht: 


SELECT * FROM titles 
WHERE premiered = 2019 


Mehrere Kriterien werden mit den booleschen Operatoren OR, AND, NOT und 
Klammern angegeben. Es können mit dem Ungleichoperator <> anstelle des 
Gleichheitsoperators = auch alle Zeilen ausgegeben werden, die einen Wert nicht 
enthalten. Eine Besonderheit stellt der LIKE-Operator dar, mit dem Zeichenwerte 
verglichen werden. Zeichenwerte werden grundsätzlich in Anführungszeichen an- 
gegeben. Dabei steht das Prozentzeichen % innerhalb der Anführungszeichen als 
Platzhalter für beliebige Zeichen. Die folgende Anweisung gibt alle Zeilen mit 
einem Wert größer 2015 in der premiered-Spalte zurück, die in der genres- 
Spalte die Zeichenkette "Western" enthalten: 


SELECT * FROM titles 
WHERE premiered > 2015 
AND genres LIKE '%Western%' 


Häufig müssen bei der Datenanalyse Daten aus mehreren Tabellen kombiniert 
werden (siehe Abschn. 4.2). In der Regel gibt es in jeder Tabelle eine Spalte mit 
einer eindeutigen ID. Diese ID kann dann in einer anderen Tabelle als sogenannter 
Fremdschlüssel verwendet werden, um die Daten miteinander zu verknüpfen. Soll 
zum Beispiel in einer Filmdatenbank erfasst werden, welche Schauspieler:innen in 
welchen Filmen mitgespielt haben, dann werden eine Tabelle mit den Akteuren 
und eine Tabelle mit den Filmen benötigt. Eine dritte Tabelle verknüpft die IDs der 
Akteure und der Filme miteinander. 

Zur Abfrage verknüpfter Tabellen werden JOIN-Anweisungen verwendet (siehe 
unten Abschn. 4.2.3). Die folgende Anweisung verknüpft die Tabelle crew (eine 
Tabelle mit Filmbesetzungen) mit der Tabelle titles (eine Tabelle mit den Fil- 
men). Welche Spalten miteinander abgeglichen werden sollen, steht in der ON-An- 
weisung, die ähnlich wie die WHERE-Anweisung funktioniert. Vor dem Spalten- 
namen muss allerdings der Tabellennamen gefolgt von einem Punkt angegeben 
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werden, um die Spalten eindeutig zu identifizieren. Diese Zusatzangabe ist nötig, 
denn es könnten gleichnamige Spalten in verschiedenen Tabellen enthalten sein: 


SELECT * FROM crew JOIN titles 
ON crew.title id = titles.title id 


Bei umfangreichen Datenbeständen kann eine solche Abfrage sehr lange dauern. 
Um dem zu begegnen, kann die Datenmenge eingeschränkt werden. Die LIMIT-An- 
weisung bewirkt (nicht nur bei JOIN), dass nur die angegebene Anzahl an Daten- 
sätzen zurückgegeben wird. Dabei ist es sinnvoll, eine Sortierung anzugeben, sodass 
immer die ersten Datensätze aus der sortierten Liste ausgewählt werden: 


SELECT * FROM crew JOIN titles 
ON crew.title id = titles.title id 
ORDER BY titles.premiered LIMIT 100 


Außerdem kann die Datenmenge mit einer WHERE-Anweisung weiter eingegrenzt 
werden. Es werden immer zuerst Joins definiert, dann Where-Einschränkungen 
vorgenommen, dann folgt die Angabe der Sortierung und schließlich die Limitie- 
rung, diese Reihenfolge muss eingehalten werden: 


SELECT * FROM crew JOIN titles 

ON crew.title id = titles.title id 
WHERE category = 'director' 

ORDER BY titles.premiered LIMIT 100 


In einer Abfrage können mehrere Joins, Sortierungen und Where-Kriterien ver- 
wendet werden. Die folgende Abfrage gibt die Regisseur:innen von Filmen aus der 
IMDb zurück, indem die Crew-Tabelle sowohl mit der Filmtitel- als auch der 
Personentabelle verknüpft wird: 


SELECT * FROM crew 
JOIN titles ON crew.title id = titles.title id 
JOIN people ON crew.person id = people.person id 


WHERE category = 'director' AND premiered > 2000 
ORDER BY titles.premiered, titles.primary title 
LIMIT 100 
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Zur Berechnung des Ergebnisses einer solchen Abfrage muss das DBMS meh- 
rere Spalten auswerten, bevor das Ergebnis zurückgegeben werden kann. Das be- 
trifft vor allem die Spalten in der ON-, der WHERE- und der ORDER BY-Anweisung. 
Diese Auswertung kann sehr ressourcenintensiv sein und entsprechend lange dau- 


ern. Um die Zugriffszeit zu verkürzen, werden deshalb sogenannte Indizes an- 
gelegt. Ein solcher Index enthält eine Art Adressbuch, das heißt, die Daten werden 
so vorsortiert, dass über den Wert einer Spalte schnell auf die anderen Inhalte der 
Tabelle zugegriffen werden kann. Er wird aus einer oder mehreren Spalten einer 
Tabelle gebildet und kann über den Befehl CREATE INDEX erstellt werden. Das 
Aktualisieren der Indizes erhöht zwar den Aufwand beim Verändern der Daten, 


meistens sind Lesezugriffe in einer SQL-Datenbank aber häufiger als 
Schreibzugriffe. Immer wenn eine Abfrage also sehr lange braucht, sollten Sie mit 
Ihrem Datenbank-Client die Indizes überprüfen und ggf. neue Indizes anlegen. 


Übungsfragen 


Was bedeutet der reguläre Ausdruck [0-9]+ ? 

Welche Quantoren gibt es in regulären Ausdrücken? 

Wie kann ein Wort am Anfang einer Zeile gefunden werden? 

Wofür stehen die Zeichen \r und \n? 

Öffnen Sie im ® Repositorium die Datei example_text.txt mit einem Text- 


So WN 


editor und suchen Sie mit regulären Ausdrücken nach allen a) Jahreszahlen, 
b) Prozentzahlen und c) geschiitzten Leerzeichen! 

6. Welche Schwierigkeiten ergeben sich bei der Datenextraktion in Bezug auf 
Sonderzeichen? 

7. Wie können in einem HTML-Quelltext die URLs gefunden werden? 

8. Mit welchem CSS-Selektor und mit welchem XPath-Ausdruck können alle 
Zeilen einer HTML-Tabelle gefunden werden? 

9. Was sind eine Datenbank, ein Datenbank-Management-System und ein 
Datenbank-Client? 

10. Formulieren Sie einen SQL-Befehl, mit dem die Felder titel und jahr 

aus einer Tabelle movies abgefragt werden. Grenzen Sie auf Titel aus den 
Jahren 2005 bis 2010 ein! 
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4.2 Transformationsverfahren 


Daten liegen selten in der Form vor, die für eine Analyse notwendig ist. Vor allem 
bei der Arbeit mit Textdaten besteht ein wesentlicher Schritt darin, unstrukturierte 
Daten zu strukturieren. In der Regel strebt man dabei an, eine oder mehrere Tabel- 
len zu erstellen. Dafür haben sich einige hilfreiche Regeln etabliert (Wickham 
2014, S. 4):"? 


1. Jede Beobachtungseinheit wird in einer eigenen Tabelle abgespeichert. Wenn 
es beispielsweise um Webseiten, Nutzer:innen und Posts geht, wird fiir jeden 
dieser Typen in der Regel eine eigene Tabelle verwendet. 

2. Jede Beobachtung entspricht einer eigenen Zeile. Beobachtungen oder Falle 
sind etwa die Posts. Die Eigenschaften und Inhalte eines Posts befinden sich 
möglichst alle in einer einzigen Zeile. 

3. Jede Variable wird in einer eigenen Spalte vorgehalten. Eine Variable wäre 
zum Beispiel die Anzahl der Kommentare eines Posts. Im Kopf der Tabelle steht 
dann der Name der Variable und die Werte werden darunter aufgeführt. 

4. Jeder Wert ist in einer eigenen Zelle abgelegt. Eine Zelle ist dabei der Ort, an 
dem sich Spalte (vertikal) und Zeile (horizontal) treffen. Die Anzahl der Kom- 
mentare eines jeden Posts liegt also in einzelnen Zellen, es sollten möglichst 
nicht mehrere Angaben in einer gemeinsamen Zelle liegen. 


Wer viel Datenanalyse betreibt, für den werden diese Regeln nach und nach selbst- 
verständlich. Es geht darum, die Welt aus einer rechteckigen Brille zu betrachten, 


Datenstrukturen, die diesen Regeln entsprechen, werden in der Programmiersprache R 
auch Tibbles genannt. 
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weil diese Perspektive übersichtlich ist. Vor allem für die Zusammenarbeit mit an- 
deren ist es sehr hilfreich, sich an diese Konventionen zu halten. Denn dadurch 
lassen sich auch fremde Daten schnell verstehen. Das gilt auch, wenn Sie mit Excel 
oder ähnlichen Programmen arbeiten: Die erste Zeile sollte für Variablennamen 
reserviert bleiben, alle anderen Zeilen sind für die Fälle da. Verbundene Zellen 
sollten vermieden werden. Anmerkungen sollten nicht irgendwo in die Zellen ge- 
schrieben werden, dafür lässt sich die Anmerkungsfunktion verwenden oder An- 
merkungen werden in einer eigenen Spalte oder einem eigenen Tabellenblatt er- 
fasst. So wird sichergestellt, dass Dateien für beliebige Verarbeitungsprogramme 
kompatibel sowie dokumentiert und damit auch für andere intuitiv lesbar sind. 


4.2.1 Umformen von Tabellen: Wide- und Long-Format 


Die rechteckige Brille reduziert nicht nur Komplexität, sondern erlaubt auch einen 
vielseitigen Blick auf Daten, mitunter muss man dazu jedoch die Brille drehen. 
Stellt man sich einen Datensatz mit Posts auf einer Social-Media-Plattform vor, in 
der jede Zeile ein Post enthält und in den Spalten Eigenschaften wie die Anzahl der 
Likes oder Kommentare angegeben sind (Tab. 4.5), kann dieser Datensatz in ver- 
schiedene Richtungen gedreht werden. Wenn man nicht an der Analyse von Posts, 


Tab. 4.5 Wide-Format 


post_id likes comments shares 
1 0 
20 
6 
5 
0 
64 


Quelle: Eigene Darstellung 
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Tab. 4.6 Long-Format 


post_id variable value 
1 likes 0 

2 likes 20 

3 likes 6 

4 likes 5 

5 likes 0 


Fortsetzung 
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Tab. 4.6 (Fortsetzung) 


post_id 
6 


Di NB WN) RA! U A WwW) NIT 


variable 
likes 
comments 
comments 
comments 
comments 
comments 
comments 
shares 
shares 
shares 
shares 
shares 
shares 


Quelle: Eigene Darstellung 


Tab. 4.7 Beispiel mit mehreren Hashtags in einer Zelle 


id | text 


value 


© 
p 


=|=|/o| ol NOA O 0/0 DN 


1 |#Lastenräder-Projekt „CoBiUM-Cargo bikes in 


urban mobility“ von #UniGreifswald nimmt Fahrt 


auf... 


2 |Mit FU.N. in die Wildnis! #citizenscience an der Uni 
Greifswald: Fledermauslehrpfad im #Naturpark... 


3 | #Nachhaltigkeit war ein großes #Thema beim 


Unique-Ideenwettbewerb 2019! 7 Teams stellten ihre 


#Ideen der Fachjury vor ... 


4 | machine-learning für die #Ökologie? Das #Projekt 
DIG-IT! von @wissen_lockt & @Fraunhofer_IGD 


widmet sich der Auswertung ... 


5 | Das ist an der #unigreifswald #wissenlocktmich 
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hashtags 
Lastenräder;UniGreifswald 


citizenscience;Naturpark 


Nachhaltigkeit;Thema;Ideen 


Okologie;Projekt 


unigreifswald;wissenlocktmich 


Quelle: Eigene Darstellung in Anlehnung an den Twitterkanal der Universität Greifswald 


sondern an den Reaktionen auf die Posts interessiert ist, Kann sich eine Umformung 
der Tabelle lohnen: Aus den Variablen (Likes oder Kommentare) werden dann 
Fälle. Man unterscheidet dabei zwei grundlegende Formate. 

Im Wide-Format (Tab. 4.5) ist für jede Eigenschaft oder Variable eine Spalte 
vorgesehen. So gibt es etwa Spalten mit den Anzahlen der Likes, Kommentare und 
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Shares eines Posts. Je mehr Eigenschaften in einem Datensatz gespeichert werden, 
desto breiter wird die Tabelle. 

Im Long-Format (Tab. 4.6) reichen für die gleichen Daten drei Spalten aus. In 
einer Spalte wird der Name einer Eigenschaft oder Variablen festgehalten und in 
einer zweiten Spalte der Wert. Damit klar ist, welche Eigenschaften zusammen- 
gehören, wird für jeden Fall eine Nummer oder ein anderer eindeutiger Bezeichner 
verwendet (post_id). Je mehr Eigenschaften in einem Datensatz gespeichert 
werden, desto länger wird die Tabelle. 

Außerdem kommt es vor, dass mehrere Werte in einer Zeile zusammengefasst 
sind. Man spricht auch von verschachtelten (engl. nested) Daten. Wenn man bei- 
spielsweise mit Facepager Tweets erhebt (siehe Abschn. 7.2), kann daraus eine 
Liste von Hashtags, die durch Semikola getrennt sind, erzeugt werden (Tab. 4.7). 
Um die Hashtags auswerten zu können, müssen sie aufgetrennt werden, sodass in 
jeder Zeile ein einzelnes Hashtag steht. Dieses Verfahren nennt sich Unnesting 
(deutsch entschachteln). Wenn Text in einzelne Teile zerlegt wird, etwa in die Wör- 
ter eines Satzes, spricht man auch von Tokenisierung. Auf diese Weise, wenn jedes 
Token (= Wort oder Hashtag) in einer eigenen Zeile steht, lässt sich leicht aus- 
zählen, welche Wörter oder Hashtags besonders häufig vorkommen. 


Tab. 4.8 Befehle zum Umformen von Tabellen (Beispiele) 


Programm/ 
Sprache von wide zu long von long zu wide 
R pivot_longer () pivot_wider () 
(tidyverse) gather () spread () 

melt () cast () 
Python stack () unstack () 
(pandas) melt () pivot () 
Excel manuell untereinander PıvoT-Funktion 

kopieren 
Programm/ 
Sprache Richtung | nested zu unnested | von unnested zu nested 
R vertikal separate _rows() |group_by() undpaste0 () mit 
(tidyverse) unnest_token() |dem parameter collapse 

horizontal separate () unite () 
Python vertikal str.split() und | groupby() und join() 
(pandas) explode () 
Excel horizontal | Funktion TExT IN &-Formel 
SPALTEN 


Quelle: Eigene Darstellung 
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Statistikprogramme und die entsprechenden Programmiersprachen stellen in der 
Regel Funktionen zur Umformung zwischen Wide- und Long-, Nested- und Unnes- 
ted-Formaten zur Verfügung (Tab. 4.8). In R erstellt zum Beispiel die Funktion se- 
parate_rows () fürjedes Token eine neue Zeile, es wird also vertikal entschachtelt. 
Dagegen kann man mit separate () horizontal entschachteln, das heißt, eine Spalte 
wird in mehrere neue Spalten aufgeteilt. Umgekehrt lassen sich auch mehrere Spalten 
zu einer zusammenfassen. Beim Verschachteln und Entschachteln muss man sich also 
entscheiden, ob eine Tabelle im Long- oder im Wide-Format entstehen soll. 

Die konkrete Umsetzung hängt vom Anwendungsfall und von der verwendeten 
Software ab (® Repositorium). Wichtig ist zunächst, die grundlegenden Konzepte 
zu verstehen. Denn die Umformung von Datensätzen kann die Arbeit wesentlich 
erleichtern und erweitert die Möglichkeiten der Datenanalyse. 


4.2.2 Zusammenfihren von Daten: Joins 


Viele Fragestellungen erfordern, dass mehrere Datensätze aus unterschiedlichen 
Quellen zusammengeführt oder miteinander abgeglichen werden. Im einfachsten 
Fall haben die verschiedenen Datensätze die gleiche Form und können unter- 
einander oder nebeneinander kopiert werden. Mit R können dafür etwa die 
tidyverse-Funktionen bind_rows () oder bind_cols () verwendet werden. 
In Python wird dafür die pandas-Funktion concat () verwendet, mit dem 
Achsenparameter wird gesteuert, ob Spalten (axis=1) oder Zeilen (axis=0) an- 
einandergebunden werden sollen (siehe Kap. 5). 

Häufig sind jedoch nicht alle benötigten Daten bereits in gleichartigen Tabellen 
vorhanden. Angenommen: In einer Tabelle sind Zeitschriften erfasst und es sollen 
die Webseiten dieser Zeitschriften analysiert werden — es fehlen aber die Web- 
adressen. Die Webadressen (URLs) liegen in einer zweiten Tabelle, wobei die bei- 
den Tabellen nicht deckungsgleich sind. In beiden Tabellen finden sich Zeit- 
schriften, die in der jeweils anderen fehlen. Im besten Fall liegen aber ein oder 
mehrere Merkmale vor, die zum Abgleich verwendet werden können, zum Beispiel 
eine International Standard Serial Number (ISSN). 

In Abb. 4.7 sind zwei Tabellen dargestellt, die sich nicht vollständig über- 
schneiden. Die beiden orange markierten ISSN kommen nicht in der jeweils anderen 
Tabelle vor. Die grün markierte ISSN kommt beispielsweise in beiden Tabellen vor. 

Beim Zusammenführen der Tabellen ist zu entscheiden: 


e Sollen nur die übereinstimmenden Zeilen erhalten bleiben, wird ein sogenannter 
Inner Join verwendet. 
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e Sollen alle Zeilen in beiden Tabellen erhalten bleiben, dann kann ein Full Join 
eingesetzt werden. In den Zeilen ohne Übereinstimmung bleiben die Felder leer. 

e Wenn im Ergebnis nur die erste Tabelle wichtig ist, kann ein Left Join ein- 
gesetzt werden. Hierbei bleiben alle Zeilen der linken Tabelle erhalten und 
überall wo es möglich ist, werden die Zeilen aus der rechten Tabelle zugeordnet. 
Das Gegenstück ist der Right Join, der nach dem gleichen Prinzip funktioniert. 
Hier bleiben alle Datensätze aus der rechten Tabelle erhalten. 


Aufpassen muss man, wenn das Vergleichskriterium mehrfach vorkommt, wenn 
also zum Beispiel eine Zeitschrift doppelt aufgeführt wurde oder eine ISSN ver- 
sehentlich doppelt vergeben ist. Dann werden auch im Ergebnis die Zeilen verviel- 
fältigt. Das Zusammenführen kann man sich so vorstellen, dass zunächst alle Kom- 
binationen aus allen Zeilen in den beiden Datensätzen gebildet werden (= 
Kreuzprodukt). Im nächsten Schritt werden dann diejenigen Zeilen wieder aus- 
sortiert, die der Join-Bedingung nicht entsprechen. 

Die Tabellen werden in der Regel so zusammengeführt, dass im Ergebnis alle 
Spalten aus den ursprünglichen Tabellen vorhanden sind. Einige Programmier- 
sprachen unterstützen Join-Varianten, bei denen nur die Spalten der ersten Tabelle 
erhalten bleiben: 


Tabelle mit Zeitschriften Tabelle mit URLs 
zeitschrift issn issn url 

Cognitive Linguistics 0936-5907 | | 0013-1946 | www.heds.com 
Educational Studies 0013-1946 | 0021-3624 | www.mjei.com 
Journal of Personality ... 0022-3514 0195-6051 | www.vjpf.com 
Journal of Popular Film ... 0195-6051 0257-2117 | www.rjal.com 
Mass Communication ... | 1016-1007 | | 0737-7363 | www.ujch.com 
Negotiation 1546-9522 | | 0883-2323 | www.vjeb.com 
Pennsylvania Com... 2372-6350 0967-2567 | www.rejh.com 
Popular Communication 0-5702 1472-9342 | www.rouc.com 
South African Journal of ... | 0257-21 17 | www.hppc.com 
Studies in European ... 1741-1548 1741-1548 | www.rseu.com 


Abb. 4.7 Zwei Tabellen vor dem Zusammenführen. Quelle: Eigene Darstellung in An- 
lehnung an Taylor & Francis (2022) 
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e Mit einem Semi Join bleiben in der ersten Tabelle nur die Zeilen erhalten, für 
die ein Eintrag in der zweiten Tabelle gefunden werden konnte. Das entspricht 
im Prinzip einem Left Join, es werden aber keine Daten aus der zweiten Tabelle 
übernommen. 

e Bei einem Anti Join bleiben in der ersten Tabelle nur die Zeilen erhalten, für 
die kein Eintrag in der zweiten Tabelle gefunden werden konnte. So können 
Datensätze identifiziert werden, die in der zweiten Tabelle fehlen. 


In der Programmiersprache R (siehe Abschn. 5.1) werden die genannten Verfahren 
unter anderem über Bibliotheken aus dem Tidyverse umgesetzt.” Das folgende 
R-Skript vollzieht einen Left Join, wobei journal und url jeweils den in 
Abb. 4.7 dargestellten Datensatz enthalten. Das Kriterium zum Abgleichen wird 
über den by-Parameter angegeben und das Ergebnis in x abgelegt. 


x <- left join(journal, urls, by = "issn") 


Daraus entsteht die Tabelle in Abb. 4.8; nur bei den passenden Zeilen konnte die 
URL ergänzt werden, in allen anderen Fällen bleibt die neue Spalte leer. Es können 


zeitschrift issn url 

Cognitive Linguistics 0936-5907 

Educational Studies 0013-1946 www.heds.com 
Journal of Personality ... 0022-3514 

Journal of Popular Film ... | 0195-6051 | www.vjpf.com 
Mass Communication ... 1016-1007 

Negotiation 1546-9522 

Pennsylvania Com... 2372-6350 

Popular Communication 1540-5702 | www.hppc.com 
South African Journal of... | 0257-2117 | www.rjal.com 
Studies in European ... 1741-1548 | www.rseu.com 


Abb. 4.8 Mit einem Left Join zusammengeführte Tabelle. Quelle: Eigene Darstellung in 
Anlehnung an Taylor & Francis (2022) 


?° Für komplexere Verfahren lohnt ein Blick in das Package fuzzyjoin (Robinson et al. 2020). 
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auch mehrere Kriterien gleichzeitig zum Abgleich verwendet werden. Würden die 
Ausgangstabellen eine weitere Spalte mit einer Jahresangabe enthalten und soll 
diese Angabe zum Abgleich verwendet werden, kann über den by-Parameter eine 
Liste c () mit mehreren Spaltennamen angegeben werden: 


x <- left join( 
journal, downloads, 


by = c("issn", "jahr") 


Bislang wurde vorausgesetzt, dass die Spaltennamen in beiden Tabellen 
übereinstimmen. In diesem Fall könnte der by-Parameter sogar entfallen, R würde 
automatisch mit den übereinstimmenden Spaltennamen arbeiten. Wenn sich die 
Namen unterscheiden, kann ein benannter Vektor verwendet werden. Links vom 
Gleichheitszeichen steht dann der Spaltenname des linken Datensatzes (hier: 
name) und rechts der Name im rechten Datensatz (hier: titel). Nach dem Zu- 
sammenführen bleibt in der Regel nur eine Spalte übrig, denn die beiden ursprüng- 
lichen Spalten enthalten die gleiche Information: 


x <- left join( 
journal, urls, 


by = c("name" = "titel") 


Die meisten Statistik- und Datenbankprogramme sehen Befehle zum Zu- 
sammenführen von Datensätzen vor (Tab. 4.9). Besonders umständlich ist das Zu- 
sammenführen mit Excel. Hier müssen die Werte Spalte für Spalte und Zeile für 
Zeile mit der Funktion SVERWEIS (engl. VLOOKUP) aus der zweiten Tabelle ge- 
holt werden. Hilfreich ist bei der Arbeit mit Excel auch die Funktion ZÄHLEN- 
WENN, mit der festgestellt werden kann, wie viele Datensätze in einem anderen 


Tab. 4.9 Beispiele für Left Joins 


Sprache Beispiel fiir einen Left Join 

SQL SELECT * FROM journal LEFT JOIN urls ON journal. 
name = urls.titel 

R (tidyverse) left_join(journal, urls, by = c("name" = 
"titel") ) 

Python pd.merge (journal, urls, on_left='name', on_ 

(pandas) right='titel', how='inner') 

Excel =SVERWEIS (C2; urls!A:B;2; FALSCH) 
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Tabellenblatt enthalten sind. Das folgende Beispiel setzt voraus, dass im Tabellen- 
blatt zeitschriften in der Spalte C und im Tabellenblatt urls in der Spalte 
A das übereinstimmende Merkmal angegeben ist, etwa eine ISSN. Es wird dann 
berechnet, wie häufig der Wert in zeitschriften!C2 im Bereich urls!A:A 
vorhanden ist: 


=ZÄHLENWENN (urls!A:A;zeitschriften!C2) 


Mit etwas Kreativität und Übung lassen sich damit in Kombination mit den 
Filter- und Sortierfunktionen auch in Excel Datensätze zusammenführen. 


4.2.3 Aggregieren von Daten: Map-Reduce und 
Split-Apply-Combine 


Das Gegenstück zum Zusammenführen von Daten ist die Aggregation, bei der die 
Daten nicht mehr, sondern weniger werden. Dieser Vorgang ist ganz wesentlich für 
die Datenanalyse, um Komplexität auf wenige interessante Muster einzuschmelzen. 
Ein Beispiel dafür ist die Berechnung von Mittelwerten. Beschäftigt man sich mit 
der Anzahl von Zeitungsberichten zur Coronapandemie, mit der Anzahl der Logins 
auf einer Webseite oder mit der Anzahl von Terroranschlägen im Zeitverlauf, kann 
die Anzahl der Einzelaktivitäten zunächst für jeden Tag zusammengezählt werden. 
Um nun einen typischen Tag zu beschreiben, kann als ein einfaches Maß der 
Mittelwert aller Tageswerte gebildet werden.”! Dabei ist man möglicherweise nicht 
nur daran interessiert, alle Tage gleich zu erfassen, sondern etwa Wochentage vom 
Wochenende zu unterscheiden. 
Hinter einer solchen Datenaufbereitung stehen konzeptionell vier Vorgänge: 


e Map: Einzelne Werte müssen zunächst Zeile für Zeile transformiert werden. 
Beispielsweise wird aus dem Zeitpunkt des Logins (2023-08-09T13,00:12.234) 
eine neue Spalte mit dem Tag des Logins gebildet, das heißt, die Uhrzeit wird 


2! Mittelwerte sind nicht immer eine gute Wahl zur Beschreibung von Verteilungen. In den 
genannten Beispielen ist mit rechtsschiefen Verteilungen zu rechnen: Einige wenige Monate 
umfassen sehr viel Aktivität, die meisten aber eher wenig (ein sogenannter Long Tail). Oder 
auch: Einige Webseiten werden von sehr vielen Menschen genutzt, die meisten aber von sehr 
wenigen. Hier bietet sich alternativ der Median zur Beschreibung an. Wichtig ist an dieser 
Stelle, das Aggregationsverfahren passend zur Fragestellung und zur Datenlage zu wählen. 
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abgeschnitten (2023-08-09) oder der Wochentag wird bestimmt (Mittwoch). 
Die Loginzeit wird also auf einen Tag abgebildet (engl. mapped). 

e Split: Der gesamte Datensatz wird für den folgenden Schritt in Teile zerlegt, 
zum Beispiel in sieben Teile für jeden einzelnen Wochentag. 

e Reduce: Jeder Teil wird zusammengefasst, indem ein neuer Kennwert wie der 
Mittelwert berechnet wird. Mitunter wird dieser Schritt auch als Apply be- 
zeichnet. 

e Combine: Die Einzelergebnisse werden wieder zu einer Tabelle zusammen- 
gefasst, sodass in einer Spalte der Wochentag und in einer anderen Spalte die 
mittlere Anzahl der Logins stehen. 


In verschiedenen Programmiersprachen und Tools werden diese Vorgänge unter- 
schiedlich bezeichnet oder sind teilweise auch nicht explizit benannt. Unter R fin- 
det sich der Vorgang des Abbildens unter anderem in der Tidyverse-Funktion 
map () wieder, das Zerlegen ist über Funktionen wie group_by () umgesetzt und 
summarize ()reduziert und kombiniert die Werte innerhalb der Gruppen. Im 
Python-Package pandas finden sich äquivalent dazu die Funktionen map (), 
groupby () und aggregate (). 

Unabhängig von der konkreten Programmiersprache ist eine Zergliederung von 
Problemen in diese vier Vorgänge immer dann besonders hilfreich, wenn 
umfangreiche Daten verarbeitet werden müssen. Denn selbst wenn Map, Split, Re- 
duce und Combine hintereinander ablaufen, lässt sich im besten Fall innerhalb 
dieser Schritte parallelisieren. Das bedeutet, die Bearbeitung jeder einzelnen Zeile 
(map) oder Gruppe (reduce) kann auf unterschiedlichen Computern oder innerhalb 
eines Computers auf unterschiedlichen Kernen (siehe Abschn. 6.3) ausgeführt wer- 
den. Nur auf diese Weise können Suchmaschinen wie Google nahezu das gesamte 
Web für die Suche aufbereiten. Eine Software dafür ist beispielsweise Apache Ha- 
doop,” in der zunächst Funktionen für das Mapping und das Reducing entwickelt 
werden, die sodann auf einem Computercluster verteilt ausgeführt werden. 


4.2.4 Umformen von Matrizen: Ahnlichkeitsberechnungen 


Für eine möglichst effiziente Verarbeitung von Daten werden Tabellen als Matrix 
aufgefasst. Eine Matrix setzt sich aus Vektoren (Zeilen oder Spalten) zusammen 
und Vektoren beinhalten wiederum eine Sammlung von Elementen (Werten). Je 
nach Perspektive besteht eine Matrix somit aus einer Liste mit Zeilen oder aus 


? Siehe Apache Software Foundation (2022a; https://hadoop.apache.org/). 
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Abb.4.9 Darstellung der Reaktionen auf Social-Media-Posts als Tabelle (links) und Matrix 
(rechts). (Quelle: eigene Darstellung) 


einer Liste mit Spalten (siehe Abschn. 3.1).”” Eine Matrix m x n besteht aus m 
Zeilen und n Spalten, die Matrix in Abb. 4.9 ist somit eine 6 x 3 Matrix. Mathe- 
matisch werden Matrizen in eckigen Klammern dargestellt und üblicherweise mit 
Großbuchstaben benannt, wohingegen Vektoren an Kleinbuchstaben erkenn- 
bar sind. 

In einer Tabelle lassen sich einzelne Elemente über die Zeilen- oder Spalten- 
bezeichnungen adressieren. In Matrizen werden dagegen sogenannte Indizes ver- 
wendet — das sind die Zeilen- und Spaltennummern. Wenn im Beispiel die Like- 
Anzahl des Posts mit der ID 4 ausgelesen werden soll, findet sich dieser Wert in der 
ersten Spalte der vierten Zeile der Matrix. Diese Zelle lässt sich über Indizes adres- 
sieren, wobei der Zeilenindex meistens als erstes angegeben wird. Je nach 
Programmiersprache beginnt die Zählung des Index bei 0 oder bei 1 wie in folgen- 
den beiden Ausdrücken ersichtlich ist: 


e Adressierung inR: A[4,1] 
e Adressierung in Python: A[3, 0] 


Wenngleich die Betrachtung von Tabellen als Matrizen zunächst weniger intuitiv 
und etwas sperrig erscheinen mag, lohnt sich die Auseinandersetzung damit und das 
Denken in Matrizen. So können einige Programme Matrizen effizienter verarbeiten, 
wenn die Funktionen vektorisiert sind. Das heißt, diese Funktionen bearbeiten einen 
ganzen Vektor, also alle Einträge in einer Zeile oder Spalte, gleichzeitig und man 
muss keine Schleife programmieren, mit der jeder Eintrag Zeile für Zeile und Spalte 


3 Eine einzelne Liste wird auch als Array bezeichnet und eine Liste mit Listen als mehr- 
dimensionales Array. Das kann weiter fortgesetzt werden, um beispielsweise ein drei- 
dimensionales Array zu erhalten: Ein Bild besteht aus Pixeln, die in Zeilen (erste Dimension) 
und Spalten (zweite Dimension) angeordnet sind. Jedes Pixel enthält ein Array (dritte Di- 
mension) mit den jeweiligen Werten für den Rot-, Grün- und Blauanteil. 
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für Spalte durchlaufen wird. Matrizen spielen deshalb in vielen Algorithmen eine 
wichtige Rolle, insbesondere beim Machine Learning (siehe Kap. 8). 

Nicht nur Zahlen, sondern auch Texte lassen sich in Matrizen erfassen: In einer 
Dokument-Term-Matrix wird jedes Dokument (z. B. ein Post) in einer Zeile erfasst 
und für jedes Wort wird eine Spalte angelegt. In den Zellen wird dann angegeben, 
wie häufig dieses Wort im Dokument auftritt (siehe Abschn. 9.1). Vergleicht man 
die Zeilenvektoren von zwei Dokumenten, so lässt sich daraus die Ähnlichkeit von 
Texten berechnen: In ähnlichen Texten treten die gleichen Wörter ungefähr gleich 
häufig auf. Ebenso können Netzwerke als Matrizen erfasst werden, wobei die Zei- 
len und Spalten dann Personen darstellen. In den Zellen wird zum Beispiel mit 
einer 1 angegeben, wenn sich zwei Personen kennen (siehe Kap. 10). Auch hier 
lassen sich Erkenntnisse aus dem Vergleich von Vektoren ziehen. Die Zeilen oder 
Spalten von zwei Personen sind sich ähnlich, wenn sie die gleichen Bekannten- 
kreise haben. Auf die gleiche Weise funktionieren kollaborative Empfehlungs- 
systeme, bei denen ausgewertet wird, welche Filme Personen mit einer ähnlichen 
Nutzungshistorie gesehen, welche Social-Media-Posts ähnliche Nutzer:innen ge- 
likt oder welche Produkte Personen mit ähnlichen Interessen gekauft haben (Ricci 
et al. 2015). 

Text- oder Netzwerkmatrizen zeichnen sich meistens dadurch aus, dass sie viele 
Zeilen und Spalten enthalten, aber dass die meisten Zellen leer sind (bzw. den Wert 
0 enthalten). Wenn man etwa viele unterschiedliche Texte miteinander vergleicht, 
kommen in jedem Text je nach Thema sehr spezifische Wörter vor. Geht es in 
einem Social-Media-Post um Kochrezepte und in einem anderen um Volleyball, 
dann braucht es für jedes Wort™ in den verschiedenen Vokabularen eigene Spalten, 
ohne dass alle Texte alle Spalten nutzen. Man unterscheidet deshalb zwei Arten 
von Matrizen: 


e Matrizen sind dense (deutsch dichtbesetzt), wenn die meisten Zellen Werte ent- 
halten, zum Beispiel, wenn alle Entfernungen zwischen den Großstädten der 
Welt erfasst werden. Diese Matrizen werden vollständig im Arbeitsspeicher des 
Computers vorgehalten und können dann schnell über die Indizes angesprochen 
werden. Beim Abspeichern werden einfach alle Werte in einer langen Reihe ab- 
gespeichert und zusätzlich die Information angegeben, an welchen Stellen diese 
lange Reihe in Zeilen oder Spalten umgebrochen werden muss.” 


4 Für jeden type, nicht für jedes token, siehe Kap. 9. 


> Matrizen können schnell in andere Dimensionen umgeformt werden, wenn alle Werte 
hintereinander in einen Vektor gelegt und dann anders umgebrochen werden. 
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Abb. 4.10 Das Resultat einer Matrixmultiplikation. Die Farben kennzeichnen, welche Di- 
mensionen der Spalten bzw. Zeilen tibereinstimmen miissen. (Quelle: eigene Darstellung) 


e Matrizen sind sparse (deutsch dünnbesetzt), wenn die meisten Zellen leer sind. 
In diesem Fall kann beim Speichern einer Matrix Platz eingespart werden, in- 
dem in speziellen Datenformaten nur die tatsächlich vorhandenen Werte ab- 
gelegt werden.” Insbesondere wenn Millionen von Texten verglichen werden, 
stößt das andernfalls, ohne eine sinnvolle Komprimierung und optimierte Zu- 
griffsverfahren, schnell an die Grenzen eines einzelnen Computers. 


Für beide Varianten werden in den verschiedenen Programmiersprachen ent- 
sprechend angepasste Funktionen eingesetzt. Eine besonders häufig benötigte 
Rechenoperation, die unter anderem zur Berechnung von Textähnlichkeiten ver- 
wendet wird, ist die Matrixmultiplikation, bei der eine Matrix mit einer anderen 
Matrix multipliziert wird. Damit zwei Matrizen miteinander multipliziert werden 
können, muss eine grundlegende Voraussetzung erfüllt sein: Die Anzahl der Spal- 
ten des Multiplikators A (vor dem Mal-Zeichen) muss der Anzahl der Zeilen des 
Multiplikanden B (nach dem Mal-Zeichen) entsprechen. Das Produkt ist eine dritte 
Matrix C, die m Zeilen der ersten Matrix A und n Spalten der zweiten Matrix B 
aufweist (Abb. 4.10). 

Konkret wird das Produkt ermittelt, indem zunächst die erste Zeile der einen 
Matrix Element für Element mit der ersten Spalte der anderen Matrix multipliziert 
wird. Die Zwischenergebnisse werden dann addiert und das ergibt den Wert in der 
ersten Spalte der ersten Zeile der neu errechneten Matrix. Anschließend wird die 
erste Zeile der einen Matrix mit der zweiten Spalte der anderen Matrix element- 
weise multipliziert und summiert, um das zweite Element in der ersten Zeile von 


2 Ein verbreitetes Format ist Compressed Sparse Row (CSR), bei dem die vorhandenen 
Werte mit ihren Indizes gespeichert werden, fiir einen Uberblick iiber verschiedene 
Kompressionsverfahren siehe Wikipedia (2022b; https://en.wikipedia.org/wiki/Sparse_ 
matrix). 
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BEBRE: | od oe 3x0+2x3=6 3x1+2x2=7 


Abb. 4.11 Rechenweg bei der Matrixmultiplikation. Die Farben und Pfeile illustrieren, aus 
welcher Zeile bzw. Spalte einzelne Werte in der Berechnung stammen. (Quelle: eigene Dar- 
stellung) 


Matrix C zu ermitteln. Dieses Vorgehen wird für alle weiteren Zeilen und Spalten 
von Matrix A und B wiederholt (Abb. 4.11). Anders als bei der einfachen Multi- 
plikation von zwei Zahlen, kann man die Operanden A und B nicht einfach ver- 
tauschen (= nicht kommutativ) — selbst wenn die Bedingung erfüllt sein sollte, dass 
die Spaltenanzahl von A der Zeilenanzahl von B entspricht, ergibt das ein anderes 
Ergebnis. Probieren Sie es einmal aus! 

Um nun die Ähnlichkeit zwischen zwei Texten, Personen oder anderen Vekto- 
ren zu berechnen, muss man noch einen Schritt tiefer in die Matrizenmulti- 
plikation eintauchen und eine weitere Operation heranziehen: das Transponieren 
von Matrizen. Hierbei wird eine Matrix A so gedreht, dass die Zeilen zu Spalten 
und die Spalten zu Zeilen werden. Die transponierte Matrix wird als A’ bezeichnet. 
Da Spalten und Zeilen dann automatisch der oben angesprochenen Bedingung 
entsprechen, kann eine Matrix immer auch mit der transponierten Matrix multi- 
pliziert werden. Standardisiert man die Matrizen vorher, erhält man ein weitver- 
breitetes und vielseitig einsetzbares Ähnlichkeitsmaß, die Kosinusähnlichkeit 
(Abb. 4.12):77 


1. Nimmt man den oben in Abb. 4.9 dargestellten Datensatz, berechnet für jede Zeile 
die Summe der quadrierten Werte und zieht daraus die Wurzel, entspricht das der 
sogenannten L2-Norm. Die Zahl drückt die Gesamtzahl der Reaktionen auf einen 
Post aus, wobei umfangreiche Reaktionen besonders stark gewichtet sind. 

2. Mittels Division aller Werte durch die L2-Norm, werden die Zellenwerte auf den 
Bereich 0 bis | normalisiert. Das Resultat ist ein Wert, der ausdrückt wie charak- 


"Das Beispiel wird hier gewählt, um es leicht nachvollziehbar zu machen. Genau genommen 
müsste zunächst geklärt werden, inwiefern die Anzahl der Likes, Kommentare und Shares 
überhaupt vergleichbare Metriken sind. 
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a [o] a | = [>] ow 
Post 1 6,3 
Post 2 21,5 
Post 3 6,0 
Post 4 5,0 
Post 5 4,1 
Post 6 64,0 


Post 1 
Post 2 


Post 3 


Post 4 
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Abb. 4.12 Berechnung der Kosinusähnlichkeit. (Quelle: eigene Darstellung) 


teristisch eine bestimmte Reaktion für den Post ist. Zum Beispiel bestehen alle 
Reaktionen (1,0) von Post 6 aus Likes, dieser Post erhält keine Kommentare (0,0). 
3. Transponiert man die normalisierte Matrix, so werden die Posts zu Spalten. 
4. Multipliziert man die normalisierte Matrix mit der transponierten normalisier- 
ten Matrix, ergibt sich bei Betrachtung der höchsten Werte ein Muster. 


Das Ergebnis ist eine Matrix mit Posts in den Zeilen und den gleichen Posts in den 
Spalten. Die Werte an den Kreuzungen stellen ein Ähnlichkeitsmaß dar: Je höher 
der Wert, umso ähnlicher sind sich die Aktivitätsschemata dieser Posts. Der erste 
und fünfte Post gleichen sich darin, dass sie keine Likes, dafür aber andere Re- 
aktionen erhalten haben. Andere Posts sind sich dahingehend ähnlich, dass die 
Likes augenscheinlich eine stärkere Rolle im Aktivitätsmuster spielen. 
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Eine solche Aufbereitung von Daten führt Schritt für Schritt zum Destillieren 
von Mustern. Und wenn Sie tatsächlich etwas nachgerechnet haben, wird auch 
klar: Per Hand ist das aufwendig. In den nächsten Kapiteln lernen Sie, wie Sie 
Computer für sich arbeiten lassen. 


Übungsfragen 


Was unterscheidet das Long-Format vom Wide-Format? 

Was unterscheidet einen Left Join vom Inner Join und vom Full Join? 
Wofür kann das Map-Reduce-Verfahren eingesetzt werden? 

Wie werden die einzelnen Werte in einer Matrix adressiert? 

Nennen Sie einen Anwendungsfall für die Matrixmultiplikation! 
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Zusammenfassung 


Dieses Kapitel führt in die Programmierung mit R und Python ein. Sie erlernen 
die Grundlagen der beiden Programmiersprachen, um erste Erfahrungen mit der 
Datenaufbereitung und -analyse zu sammeln. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


R - RStudio - Tidyverse - ggplot - Python - Jupyter Notebook - Pandas - Numpy 


Computer sind aus wissenschaftlichen Projekten kaum wegzudenken. Sie helfen 
bei der Verwaltung von Daten, nehmen klaglos Routineaufgaben der Datenana- 
lyse ab und sind meist auch an der Kommunikation von Ergebnissen beteiligt. 
Ohne die Anweisungen von Menschen, die in Form von Programmen gegeben 
werden, sind Computer aber nutzlos. Bei der Benutzung aktueller PCs oder 
Smartphones treten die Programme in der Regel in den Hintergrund, sie verbergen 
sich hinter der Benutzeroberfläche. In diesem Kapitel geht es darum, hinter die 
Oberfläche zu schauen und selbst Programme zu schreiben. Das ist besonders 
dann sinnvoll, wenn es für ein bestimmtes Problem entweder keine vorkonfektio- 
nierte Software gibt oder wenn die Prozesse der Datenerhebung und -analyse 
möglichst transparent und kontrolliert sein sollen. Denn die Programme doku- 
mentieren im besten Fall jeden einzelnen Schritt der eigenen Vorgehensweise. Das 
gilt insbesondere für sogenannte Skripte, die eine Abfolge von Befehlen in einem 
Textdokument festhalten. Diese Skripte sind von Menschen und von Maschinen 
lesbar. Auf einem Computer wird dazu ein Interpreter — das ist ebenfalls ein Pro- 
gramm - eingesetzt, der die Befehle Zeile für Zeile abarbeitet. Programme führen 
also Programme aus. 

Eine solche Interpretersprache für statistische Berechnungen ist R. Demgegen- 
über stehen Compilersprachen wie C, bei denen der Quelltext vor der Ausführung 
des Programms erst in Maschinensprache übersetzt wird. Die Kompilierung des 
Programms braucht dann einen Moment, dafür laufen die fertigen Programme aber 
schneller ab. Zwischen Interpreter- und Compilersprachen stehen Sprachen wie 
Python oder Java. Hier wird erst ein sogenannter Bytecode erzeugt, der dann von 
einem Interpreter abgearbeitet wird. 
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Programmiersprachen lassen sich also danach einteilen, wie aus dem Quell- 
text ein lauffähiges Programm entsteht. Sie unterscheiden sich aber auch in ihrer 
Art und Weise der Problemlösung. Wird einfach nur ein Befehl nach dem ande- 
ren aufgeschrieben und abgearbeitet, so handelt es sich um prozedurale bzw. 
imperative Programmierung. Für komplexere Abläufe werden die Befehle in 
Kontrollstrukturen eingebettet, sodass etwa Anweisungen in einer for-Schleife 
wie „für alle Zahlen kleiner als 5“ nacheinander abgearbeitet werden. Dagegen 
wird das Problem bei funktionaler Programmierung so formuliert, dass es auf 
eine Formel gebracht wird. Hier sind in einer Codezeile häufig mehrere Funkti- 
onsaufrufe ineinander verschachtelt. Im Vergleich zur imperativen Programmie- 
rung können Befehle demnach kürzer und präziser gehalten werden, sind aber 
dadurch auch abstrakter. Bei objektorientierter Programmierung wiederum wer- 
den die Probleme als Klassen abgebildet, die Eigenschaften und Methoden besit- 
zen. Von einer solchen Klasse — zum Beispiel einem Balkendiagramm - lassen 
sich dann Instanzen erzeugen, also etwa ein konkretes Balkendiagramm mit 
blauen und roten Balken. ' 

Aktuelle Programmiersprachen verbinden in der Regel mehrere dieser Kon- 
zepte. Das gilt auch für die im Folgenden besprochenen Sprachen R und Python. 
Prozedurale Elemente sind in fast jedem Skript vorhanden. Besonders in R sind 
immer wieder auch funktionale Elemente offensichtlich und in Python kommt man 
häufig mit Klassen und Objekten in Berührung. Jede dieser Programmiersprachen 
bringt eine eigene Perspektive mit sich — die sich als Meme zusammenfassen las- 
sen und so zur Reflexion über sinnvolle Einsatzszenarien einladen (Abb. 5.1). Auch 
wenn sich mit R prinzipiell beliebige Probleme lösen lassen, ist es vor allem für die 
Datenanalyse entworfen und darauf zugeschnitten. Zu Beginn erscheint die Spra- 
che jedoch etwas unübersichtlich. Python verfügt über eine eingängige Syntax und 
wird sehr universell eingesetzt, nicht nur für die Datenanalyse. Die Einarbeitung in 
diese Programmiersprachen lohnt sich vor allem deshalb, weil man damit die 
Grenzen spezialisierter Tools wie Excel oder SPSS überwinden kann (Dahley 
2017; Guy_Jantic 2019). 


! Zu den Vorzügen objektorientierter Programmierung bei der Erstellung von Grafiken siehe 
Wilkinson (1999, S. 2-19). 
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If statistics programs/languages were cars... 


Abb. 5.1 Wenn statistische Programme und Sprachen Autos wären. (Quelle: Dahley 2017; 
Guy_Jantic 2019) 


5.1 Einführung in die Datenanalyse mit R 


R ist eine Programmiersprache, die für die Datenanalyse optimiert ist. Im Gegen- 
satz zu vielen kommerziellen Produkten wie Stata oder SPSS können Sie R kosten- 
los verwenden — und Sie profitieren darüber hinaus von einer aktiven Entwick- 
lungsgemeinschaft, in die Sie sich nach einiger Zeit sogar selbst einbringen können. 

Während sich klassische Statistikprogramme durch eine Benutzeroberfläche 
auszeichnen und man erst bei speziellen Problemstellungen auf die Programmie- 
rung (in der Regel über eine sogenannte Syntax) ausweicht, dreht sich dieses Ver- 
ständnis bei R um. Denn R ist eine Programmiersprache ohne Benutzeroberfläche, 
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die primär über eine Kommandozeile bedient wird. Grafische Programme binden 
dann R ein, um die Arbeit zu erleichtern. Das klingt vielleicht im ersten Moment 
kompliziert, diese Arbeitsweise hat aber drei ganz wesentliche Vorzüge. Sie kön- 
nen den Stand eines Projekts inklusive der Daten und der Schritte für die Datenana- 
lyse jederzeit abspeichern, weitergeben und wiederholen (replizieren). Zudem 
können Sie klein anfangen und das Projekt nach und nach erweitern, ohne immer 
wieder von vorne zu beginnen (inkrementell). Und schließlich können Sie bei Be- 
darf Teile der Datenauswertung automatisieren, um zum Beispiel die gleichen 
Schritte mit wenig Aufwand auf weitere Datensätze anzuwenden (skalieren). 

Tatsächlich wird die Arbeit mit R (R Core Team 2022) erheblich erleichtert, 
wenn man dafür eine Entwicklungsumgebung verwendet. Eine für die Datenana- 
lyse häufig eingesetzte Entwicklungsumgebung ist RStudio (RStudio 2022a). Die 
kostenlose Version von RStudio steht unter einer Open-Source-Lizenz (AGPL) und 
bringt mehr Funktionen mit als für die meisten Einsatzzwecke im sozial- und geis- 
teswissenschaftlichen Kontext benötigt werden. 

Installieren Sie beides nacheinander auf Ihrem Computer: 


e Die base-Distribution von R: https://www.r-project.org/ (Startseite) bzw. 
https://cran.r-project.org/ (Downloadseite) 
e RStudio Desktop: https://posit.co/download/rstudio-desktop/ 


5.1.1 Die Oberfläche von RStudio 


Mit RStudio können Sie die verschiedenen Dateien eines Projekts in einem 
gemeinsamen Ordner auf der Festplatte verwalten. Legen Sie dazu über das 
Fıres-Menü ein neues leeres Projekt in einem Ordner Ihrer Wahl an. Sobald 
Sie dieses Projekt angelegt haben, beziehen sich alle ausgeführten Befehle, 
beispielsweise zum Dateneinlesen oder -abspeichern, auf dieses Arbeitsver- 
zeichnis. Gewöhnen Sie sich von vornherein an, immer in einem Projekt zu 
arbeiten — ganz oben rechts in RStudio sollten Sie den Namen des aktuell ge- 
öffneten Projektes sehen. 

Der wichtigste Dateityp innerhalb eines Projekts sind R-Skripte, in denen die 
Programmierbefehle gespeichert werden. Legen Sie innerhalb des Projekts ein 
neues Skript an, Sie finden den Befehl dazu ebenfalls im FILE-Menü (Abb. 5.2). 

Anschließend sollten Sie eine Oberfläche mit vier Bereichen sehen, die bei Be- 
darf umsortiert werden kann (Abb. 5.3). 
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Abb. 5.2 Erstellen eines neuen R-Skripts. (Quelle: eigene Darstellung) 
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Abb. 5.3 Layout von RStudio. (Quelle: eigene Darstellung) 
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Links oben werden Skripte angezeigt. Ein Skript enthält alle Befehle für die 
Datenanalyse. Mit der Schaltfläche SOURCE wird die gesamte Datei ausgeführt — 
das ist aber meistens erst am Ende der Entwicklung sinnvoll. Vorerst geben Sie hier 
einzelne Codezeilen ein, markieren diese mit der Maus oder Tastatur und führen 
nur den markierten Bereich über die Schaltfläche Run oder schneller noch mit der 
Tastenkombination Strg + Enter (Windows) bzw. Command + Enter (Mac) aus. 
Wenn Sie nichts markieren, wird die aktuelle Zeile ausgeführt, in der sich der Cur- 
sor befindet. Der Cursor springt anschließend auf die nächste Zeile, sodass Sie sich 
Stück für Stück durch den geschriebenen Code arbeiten können. 

Beim Ausführen wird der Programmcode an die Konsole im unteren Bereich 
übergeben. Probieren Sie es aus, indem Sie die folgenden Zeilen in das neue Skript 
schreiben, den Cursor auf die erste Zeile setzen, die Strg- bzw. Command-Taste 
gedrückt halten und dreimal nacheinander die Enter-Taste betätigen: 


ich <- "Leo" 
gruss <- pasteO ("Hallo", ich) 
print (gruss) 


Vielleicht ahnen Sie bereits, was diese Zeilen bewirken, eine Erläuterung 
folgt unten. 

Links unten befindet sich die Konsole (engl. console), so wird die R- 
Kommandozeile genannt, in welcher der Inhalt des Skripts ausgeführt wird. Die 
Konsole zeigt sowohl Fehler als auch zurückgegebene Werte an. Sie können Be- 
fehle auch direkt in die Konsole statt in das Skript eingeben. Wenn Sie den Namen 
eines Objekts eingeben, wird wie mit dem print () -Befehl der Inhalt des Objekts 
angezeigt: 


gruss 


Der Vorteil von Skripten ist, dass Sie Befehle schrittweise aneinanderreihen, 
umsortieren und weiterentwickeln können. In der Konsole müssten Sie jeden Be- 
fehl, um ihn erneut auszuführen, auch erneut eingeben. 

Rechts oben wird der Arbeitsbereich (engl. environment) angezeigt. Dieser um- 
fasst alle Objekte und Funktionen, die Sie mit einem Skript geladen oder erzeugt 
haben. Nach dem Ausführen der obigen Zeilen sehen Sie im Arbeitsbereich die 
zwei Objekte gruss und ich. Diese Objekte haben Sie mit dem Zuweisungsope- 
rator <- erzeugt. Hiermit wird dem Symbol vor dem Operator der Wert dahinter 
zugewiesen. Mit Symbol ist der Name eines Objekts gemeint, den Sie selbst fest- 
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legen können.” Sie können alle Objekte im Arbeitsbereich mit der Besen- 
Schaltfläche löschen. Einzelne Objekte werden über den rm () -Befehl im Skript 
oder in der Konsole gelöscht. Probieren Sie es aus: 


rm(ich) 


Über der Liste finden Sie eine Schaltfläche, um Datensätze (CSV-, Exceldateien 
etc.) einzulesen. Später werden Sie Programmierbefehle kennenlernen, mit denen 
Datensätze eingelesen werden — das ist in der Regel der bessere Weg, weil die 
Skripte dann auch von anderen oder einige Zeit später besser nachvollzogen wer- 
den können, da die verwendeten Datensätze aus dem Skript ersichtlich sind. So- 
bald Datensätze aufgelistet sind, können Sie diese anklicken und sie werden in ei- 
nem neuen Bereich links oben neben Ihren geöffneten Skripten angezeigt. 

Rechts unten finden Sie unter anderem die FiLEs-Ansicht. Dort sehen Sie die 
Dateien des Projekts. Es handelt sich hierbei um das Arbeitsverzeichnis auf Ihrem 
Computer, in dem auch das R-Projekt liegt. In der PLors-Ansicht werden Grafiken 
ausgegeben. Im PACKAGES-Bereich können Sie zusätzliche Programmbibliotheken 
verwalten und vor allem installieren. Packages sind Sammlungen von Funktionen, 
die von anderen Personen aus der R-Entwicklungscommunity zusammengestellt 
wurden. Damit Sie die Funktionen aus einem Package verwenden können, müssen 
Sie das Package zunächst unter INSTALL heraussuchen und installieren. Die instal- 
lierten Packages sind in der User Library mit ihrer Versionsnummer aufgelistet. Da 
die Funktionen in Packages fortlaufend weiterentwickelt werden, kann es sein, 
dass die Versionen mit der Zeit veralten. In diesem Fall können Sie die Packages 
mit UPDATE auf den neuesten Stand bringen. 

Zwei Packages, die für viele Projekte sehr hilfreich sind und weiter unten 
besprochen werden, sind tidyverse und skimr. Sie können beide gleich installie- 
ren, damit sie für die anderen Beispiele in diesem Buch bereitstehen. Nachdem 
Sie ein Package installiert haben, müssen Sie es über den Befehl library () 
aktivieren: 


library (tidyverse) 


In der Liste sind geladene Packages an einem Häkchen erkennbar. Packages 
müssen bei jedem Öffnen von R zwar nicht immer wieder neu installiert, aber vor 


?Sie könnten alternativ auch das =-Zeichen verwenden, in R ist dafür aber der nach links 
gerichtete Pfeil üblich und in einigen Fällen sogar notwendig. 
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der Arbeit mit dem library () -Befehl erneut geladen werden. Erst dadurch weiß 
R, in welchen Packages die im Skript verwendeten Funktionen zu finden sind. 

Der VIEWER zeigt den Inhalt von Textdateien oder HTML-Dateien an. Ganz 
besonders wichtig ist aber der Hilfebereich. Die eingebaute Hilfe ist eine große 
Stärke von R. Sie können zu jedem Befehl die Dokumentation aufrufen, indem Sie 
dem Befehl im Skript ein Fragezeichen voranstellen und die entsprechende Zeile 
ausführen. In der Hilfe werden die möglichen Argumente beschrieben und auch 
Beispiele gegeben. Probieren Sie es für den Befehl paste0 () aus: 


?pasted 


Noch schneller geht das, wenn Sie den Cursor auf dem Befehl platzieren und 
die Fl-Taste drücken. Die Hilfe wird nur für die Befehle angezeigt, die in aktuell 
geladenen Packages enthalten sind. Sie können aber auch die gesamte Hilfe durch- 
suchen, inklusive zwar installierter, aber noch nicht geladener Packages, indem Sie 
zwei Fragezeichen verwenden. So können Sie zum Beispiel herausfinden, in wel- 
chem Package ein Befehl enthalten ist - zum Beispiel finden Sie so das skimr- 
Package, wenn es zwar installiert, aber nicht geladen ist: 


??skim 


Um zu erkunden, was alles in einem Package enthalten ist, klicken Sie in RStu- 
dio in der Liste aller Packages auf das jeweilige Package. Sie können sich dann 
zunächst einen Überblick über die Funktionen verschaffen. Viele Packages stellen 
zudem Einführungen zur Verfügung, die sogenannten Vignetten. Klicken Sie dazu 
in der Dokumentation auf den Punkt „User guides, package vignettes and other 
documentation“. Zu Beginn werden Ihnen die Ausführungen in der Hilfe zwar 
kryptisch vorkommen, es lohnt sich dennoch, sich schrittweise damit vertraut zu 
machen. Lassen Sie sich nicht abschrecken — die Hilfe wird nach und nach zu ei- 
nem Ihrer wichtigsten Hilfsmittel werden. 


5.1.2 Der Umgang mit Skripten 
Aufbau eines Skripts Ein R-Skript (® Repositorium) besteht aus einer Abfolge von 


Zuweisungen, Funktionsaufrufen und Kommentaren.’ Mit Zuweisungen werden Da- 
ten sozusagen in verschiedene Schachteln, Dosen und Tüten wegsortiert. Funktionen 


° Siehe auch die R Language Definition (R Core Team 2021). 
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verarbeiten die Daten, formen sie um, zerlegen oder kombinieren sie. Kommentare 
sind Notizzettel, die man an Daten und Funktionen anheftet. So kann man sich notie- 
ren, was in welcher Schachtel enthalten ist und wozu eine Funktion dient. 


Genauer gesagt werden bei Zuweisungen Werte in einem Objekt gespeichert, 
das über ein Symbol bezeichnet wird. Wenn im Folgenden von Objekten, Symbo- 
len oder Variablen gesprochen wird, können diese Begriffe meist ausgetauscht wer- 
den, auch wenn sie nicht vollständig synonym sind. Für eine Zuweisung wird der 
linksgerichtete Pfeil <- eingesetzt. Dieses Zuordnungszeichen kann in RStudio 
über die Tastenkombination Alt + Minustaste (Windows) bzw. Optionstaste + Mi- 
nustaste (Mac) erzeugt werden, es kann aber auch mit dem Kleinerzeichen und 
einem Minuszeichen eingetippt werden. 


name <- "Bea" 


Zur Verarbeitung von Daten werden Funktionen eingesetzt, die in Klammern Argu- 
mente entgegennehmen. Diese Argumente sind der Input der Funktion. In der Funktion 
werden die Daten verwendet und ein Output wird zurückgeben. Dieser Output kann 
einem Objekt zugewiesen werden. Die pasteO () -Funktion nimmt beispielsweise 
mehrere Zeichenketten als Input entgegen und verbindet sie zu einer einzigen Zeichen- 
kette, die dann als Ergebnis in einem neuen Objekt abgespeichert werden kann: 


name <- paste0 ("Inger", " Engmann") 


Ähnlich funktioniert die Datenverarbeitung mithilfe von Operatoren, etwa mit 
den Grundrechenarten. Im Unterschied zum vorherigen Funktionsaufruf wird der 
Funktionsname nicht vor (Präfixnotation), sondern zwischen die Argumente ge- 
setzt (Infixnotation): 


alter <- 2017 - 1989 
jahr <- 1989 + alter 


Beliebige Funktionen können mit dem folgenden Schema selbst definiert wer- 
den (führen Sie zur Definition der Funktion den gesamten Funktionsblock aus): 


calculate age <- function(year now, year birth) { 
alter <- year now - year birth 
return (alter) 
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Der Name der Funktion steht links vom Zuweisungszeichen — Sie können sich 
selbst einen Namen bestehend aus Buchstaben und Ziffern ausdenken. Häufig kom- 
men auch der Punkt oder der Unterstrich in Funktionsnamen vor. Die Parameter wer- 
den in Klammern angegeben. Innerhalb der geschweiften Klammern folgt der Code, 
welcher in der Funktion ausgeführt werden soll. Am Ende wird mit return () ein 
Wert zuriickgegeben.* Diese Funktion kann nun über den Namen verwendet werden: 


alter <- calculate age (2017, 1989) 


Selbst Funktionen zu schreiben ist besonders sinnvoll, wenn es nicht bereits 
eine Funktion für den gewünschten Zweck gibt, oder wenn man die gleichen, auf- 
einanderfolgende Befehle an mehreren Stellen im Skript benötigt. Damit man sich 
nicht stetig wiederholt und das Skript möglichst übersichtlich bleibt, wird der 
Code in eine Funktion gekapselt. Das erhöht die Lesbarkeit für andere Forscher:in- 
nen. Und auch wenn zu einem späteren Zeitpunkt etwas an den Funktionen verän- 
dert werden soll, muss nicht jede entsprechende Zeile im Skript, sondern nur die 
Funktion angepasst werden. Für viele Zwecke gibt es Funktionen, die andere Ent- 
wickler:innen bereits geschrieben haben und über Packages bereitstellen. Sobald 
Sie ein Package mit library () geladen haben (siehe oben), können Sie die da- 
rin enthaltenen Funktionen aufrufen und verwenden. Wenn Sie gerade mit dem 
Erlernen einer Programmiersprache beginnen, werden Sie die Funktionen zunächst 
recherchieren müssen, beispielsweise über eine Suchmaschine oder die Hilfe. Mit 
der Zeit werden Sie mehr und mehr Funktionen auswendig kennen, sodass das 
Programmieren dann leichter von der Hand geht. 

Kommentare sind ein weiteres wichtiges Element in Skripten. Sie beginnen mit 
einem Rautezeichen und helfen dabei, den Code zu beschreiben, damit man ihn 
später besser versteht: 


# Dies ist ein Kommentar 


In RStudio lässt sich ein Skript mit Kommentaren in einzelne Abschnitte eintei- 
len, indem an eine Kommentarzeile mindestens vier Bindestriche angehängt wer- 
den (Abb. 5.4). Die so gekennzeichneten Zeilen werden in ein Inhaltsverzeichnis 
aufgenommen. Dieses Inhaltsverzeichnis lässt sich über die Outline-Buttons rechts 
oben oder unterhalb des Skripts einblenden, sodass einzelne Abschnitte schnell 
angesprungen werden können. 


*Ohne das return-Statement wird automatisch das letzte Objekt zurückgegeben. 
` Dieses Prinzip wird als dry (don’t repeat yourself) bezeichnet. 
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Abb. 5.4 Gliederung eines R-Skripts in Abschnitte. (Quelle: eigene Darstellung) 


Die Dokumentation von Code ist wichtig, denn kaum jemand kann sich noch 
Monate später genau erinnern, warum welcher Befehl wo eingefügt wurde. Zusätz- 
lich ist wie beim Verfassen von Romanen oder Aufsätzen auch beim Programmie- 
ren ein konsistenter Schreibstil (engl. coding style) für die Verständlichkeit sehr 
hilfreich. Sie sollten sich beispielsweise entscheiden, ob Sie einzelne Teile von 
Bezeichnern mit Punkten, Unterstrichen oder CamelCase trennen wollen. Alle 
diese Varianten und noch einige mehr sind in R möglich. Jedoch können sie auch 
schnell zu Verwirrung oder Fehlern führen, denn bei unterschiedlicher Schreib- 
weise sind es auch unterschiedliche Bezeichner: 


calculate.age 
calculate age 
calculateAge 
CalculateAge 


Sie können sich zum Beispiel am Tidyverse Style Guide orientieren.‘ Dort wird 
für Variablen und Funktionen die Schreibweise mit Unterstrichen empfohlen. 


6 Siehe Wickham (2021; https://style.tidyverse.org/). 
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Die Ausgabe in der Konsole Beim Programmieren macht man Fehler, das ist 
nahezu unvermeidlich. Dazu kommt, dass jeder einzelne Computer seine Eigenar- 
ten hat, die schnell zu Stolpersteinen werden. Deshalb besteht ein wesentlicher Teil 
der Entwicklung in der Fehlersuche und -behebung. Das ist im ersten Moment är- 
gerlich — es führt aber gleichzeitig immer wieder zu kleinen Erfolgserlebnissen, 
wenn ein Fehler behoben ist. 


Ein Programmierfehler wird auch Bug genannt und die Fehlersuche Debug- 
ging (siehe Abschn. 6.2). Programmierumgebungen wie RStudio stellen dafür 
verschiedene Werkzeuge bereit. Insbesondere kann man sich Schritt für Schritt an 
die fehlerhafte Stelle herantasten und nicht nur tief in den Quellcode der eigenen 
Skripte eintauchen, sondern auch die Funktionen in Paketen erkunden. Die Arbeit 
mit diesen Werkzeugen ist zum Beispiel in der Dokumentation von RStudio er- 
läutert.’ 

Bevor man richtiges Debugging lernt, ist es sehr hilfreich, sich mit den Ausga- 
ben auf der Konsole näher zu beschäftigen. Hier werden nicht nur die Befehle 
eingegeben, sondern auch die Ergebnisse aller Prozesse, die R ausführt, sind er- 
sichtlich. Grundsätzlich muss man zwei Sorten von Meldungen unterscheiden: 


1. Warnungen treten auf, wenn die aktuellen Umstände eines Funktionsaufrufs 
nicht ganz dem entsprechen, was der Entwickler bzw. die Entwicklerin einer 
Funktion erwartet hat. Das Programm läuft trotzdem weiter. Sie sollten aber 
versuchen, die Warnung zu verstehen und abschätzen, welche Folgen sich erge- 
ben. Denn möglicherweise entsprechen die Ergebnisse der Datenanalyse nicht 
dem, wovon Sie ausgehen. Unkritische Warnungen ergeben sich häufig beim 
Einbinden von Packages: 


> library (dplyr) 


Attache Paket: ‘dplyr’ 


The following objects are masked from ‘package:stats’: 
filter, lag 


The following objects are masked from ‘package:base’: 
intersect, setdiff, setequal, union 

Warning message: 

Paket ‘dplyr’ wurde unter R Version 3.4.4 erstellt 


"Siehe McPherson (2021; https://support.rstudio.com/hc/en-us/articles/2056 12627-Debugging- 
with-RStudio). 
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Die Warnung in der letzten Zeile ist in der Regel unkritisch und kann meistens 
ignoriert werden. Sie deutet lediglich darauf hin, dass sich Ihre R-Version von der 
für das Package verwendeten R-Version unterscheidet. Diese Meldung können Sie 
gegebenenfalls durch eine Aktualisierung der R-Version beheben. 

Praktisch relevant kann aber der Hinweis auf die Maskierung von Objekten 
sein. Dieser Hinweis entsteht dadurch, dass in verschiedenen Packages Funktionen 
oder Objekte mit gleichem Namen enthalten sind. Es wird bei mehrdeutigen Na- 
men immer auf das Objekt aus demjenigen Package zurückgegriffen, das zuletzt 
geladen wurde. Meistens ist das auch gewünscht. Im vorherigen Beispiel würde ein 
Aufruf von filter () die Funktion aus dem gerade geladenen dplyr-Package auf- 
rufen. Falls dagegen die Funktion aus dem stats-Package aufgerufen werden soll, 
dann muss der Name des Packages getrennt durch einen doppelten Doppelpunkt 
explizit angegeben werden: stats: :filter (). 

Warnungen können auch bei der Datenanalyse entstehen, zum Beispiel bei der 
Visualisierung: 


> ggplot (data, aes(x = day, y = news)) + 
geom_point () 


Warning message: 
Removed 8 rows containing missing values (geom point). 


Bei einer solchen Warnung sollten Sie überlegen, ob sie nachvollziehbar ist und 
Ihren Erwartungen entspricht. Wenn Ihnen nicht bewusst war, dass in den Daten 
acht Werte gefehlt haben, dann schauen Sie sich die Daten noch einmal an und 
gehen Sie der Ursache auf den Grund! 


2. Fehler führen dazu, dass das Programm abbricht. Hier bleibt Ihnen nichts ande- 
res übrig, als sich auf die Suche nach der Ursache zu machen: 


> ggplot (data, aes(x = day, y = Fatalities)) + 
geom point () 
Error in FUN(X[[i]], ...) : object 'Fatalities' not found 


Die Meldung im Beispiel weist darauf hin, dass ein Objekt nicht gefunden 
wurde. Im besten Fall liegt das einfach an einem Tippfehler, etwa, weil Sie Groß- 
und Kleinschreibung verwechselt haben. Wenn Sie keine Idee haben, woher der 
Fehler stammen könnte, dann kopieren Sie die Meldung in die Suchmaschine Ihrer 
Wahl. Häufig sind Sie nicht der oder die Erste mit einer solchen Meldung und kön- 
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nen auf Hilfe hoffen. Eine gute Quelle für Hilfestellungen ist die Seite Stack Over- 
flow.® Dort können Sie auch selbst Fragen stellen, wenn Sie nicht weiterkommen.? 

Sie sollten rote Texte nicht ignorieren, aber sich auch nicht verunsichern lassen. 
Achten Sie also auf rote Texte! Auch wenn es sich nicht immer um ein Problem 
handelt, helfen Warnungen häufig bei der Behebung und Vermeidung von Fehlern. 
Ein wesentlicher Teil der Entwicklungsarbeit besteht in der Bearbeitung und Lö- 
sung von solchen Problemen. 


5.1.3 Grundlagen der Programmierung 


Datentypen In vielen Programmierumgebungen lassen sich grundlegend zwei 
Datensorten unterscheiden, einfache und zusammengesetzte Werte. Einfache Da- 
tentypen bilden den Grundstock für die Programmierung und werden auch Skala- 
re,” elementare oder atomare Objekte genannt. Hierzu zählen insbesondere ver- 
schiedene Arten von Zahlen, Wahrheitswerte und Zeichenketten. Bei Zeichenketten, 
also Text, ist zu beachten, dass sie in Anführungszeichen gesetzt werden. Andern- 
falls wäre nicht klar, ob nicht doch der Name eines Objekts statt der Zeichenkette 
gemeint ist (Tab. 5.1). Einige Werte haben besondere Bedeutungen, wichtig ist vor 
allem die Kennzeichnung fehlender Werte durch den Ausdruck NA (Tab. 5.2). 


Darüber hinaus gibt es in R mit factor einen besonderen Typ für kategoriale 
Daten. Statt etwa zur Kennzeichnung der Haarfarbe einer Person nur Zahlen 


Tab. 5.1 Einfache Datentypen in R 


Datentyp Ausdruck Beispiel 

Ganze Zahlen integer 1884 
Kommazahlen double 1.6 
Wahrheitswerte logical TRUE, FALSE 
Zeichenketten character "Anna" 


Quelle: Eigene Darstellung 


8 Siehe Stack Overflow (2022; https://stackoverflow.com/). 
° Eine Auflistung weiterer häufiger Fehlerquellen findet sich in Abschn. 1.3. 


10 Genau genommen gibt es in R keine Skalare, sondern nur atomare Objekte. Einem der 
Entwickler von R wird die Äußerung zugeschrieben: „Everything that exists is an object. 
Everything that happens is a function call“ (Chambers 2014, S. 170). 
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Tab. 5.2 Werte mit besonderen Bedeutungen inR 


Datentyp Ausdruck 
Fehlende Werte NA 
Unendlich Inf, -Inf 
Keine Zahl NaN 

Kein Wert NULL 


Quelle: Eigene Darstellung 


Tab. 5.3 Vektoren und Listen inR 


Datentyp Ausdruck Beispiel 
Vektor c c(1, 5, 9) 
Liste list tist (iy 85, 9) 


Quelle: Eigene Darstellung 


(Dummy-Kodierung) oder nur Zeichenketten (die Namen der Farben) zu verwen- 
den, verbinden Faktoren beides. Jede Haarfarbe bzw. jede Ausprägung einer 
Variablen erhält sowohl eine Nummer als auch eine Bezeichnung. Für die Ausgabe 
zum Beispiel in Grafiken werden die Bezeichnungen verwendet, die Reihenfolge 
der Kategorien wird dagegen über die Nummer bestimmt. 

Neben einzelnen Werten können mehrere elementare Werte in zusammenge- 
setzten Datentypen gespeichert werden. Die einfachste Form solcher Datentypen 
sind Vektoren und Listen (Tab. 5.3). Diese beiden Strukturen sind in R sehr häufig 
anzutreffen, denn viele Funktionen können nicht nur einzelne Werte verarbeiten, 
sondern die Funktion gleich auf alle Werte eines Vektors anwenden. Diese vekto- 
risierten Funktionen sind ein Unterschied zu vielen anderen Programmierspra- 
chen und besonders vorteilhaft für effiziente Datenanalysen.'! 

Im ersten Moment scheinen Listen und Vektoren das Gleiche zu sein, sie unter- 
scheiden sich aber in einem wichtigen Punkt. In einem Vektor können nur Ele- 
mente mit dem gleichen Typ enthalten sein, also entweder nur Zahlen oder nur 
Zeichenketten, während in Listen diese verschiedenen Typen gleichzeitig möglich 
sind. Mit der c () -Funktion lassen sich Vektoren nicht nur erstellen, sondern auch 
um weitere Elemente erweitern: 


personen <- c("Bea", "Leo") 
personen <- c (personen, "Niska") 
print (personen) 


!! In anderen Programmiersprachen werden für den gleichen Zweck häufiger Schleifen (fore- 
ach, for in etc.) und ähnliche Kontrollstrukturen eingesetzt. 
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Die Anzahl der Elemente in einem Vektor oder einer Liste kann mit der 
length () -Funktion ermittelt werden. Elemente in Listen und Vektoren können 
auch benannt werden, zum Beispiel: 


person <- list (vorname="Inger", nachname="Engmann") 


Ein weiterer komplexer Datentyp sind tabellenartige Datenstrukturen, wel- 
che in der Datenanalyse häufig verwendet werden. Die Standardstruktur für Daten- 
sätze istinR der Typ data. frame, der aus Spalten und Zeilen besteht. Ein Data- 
frame ist intern als Liste von Vektoren organisiert. Jede Spalte ist ein Vektor mit 
einem einheitlichen Typ und die gesamte Tabelle besteht somit aus einer Liste die- 
ser Vektoren. Die Spalten haben Namen und auch die Zeilen könnten benannt wer- 
den, sie werden aber normalerweise einfach durchnummeriert. 


personen <- data.frame ( 


name = c("Bea", "Leo", "Niska", "Inger", "Tobbe"), 
alter = c(24, 26, 25, 52, 17), 
typ = c("Bot", "Bot", "Bot", "Mensch", "Mensch") 


In RStudio kann der Dataframe personen anschließend als Tabelle angezeigt 
werden (Abb. 5.5). 

Es gibt verschiedene Möglichkeiten, um auf Teile eines Dataframes zuzugrei- 
fen. Spalten, Zeilen und Zellen können zunächst über eckige Klammern [] aus- 
gewählt werden, die an den Namen des Dataframe angehängt werden. Der erste 


name alter typ 
1 Bea 24 Bot 
2 Leo 26 Bot 
3 Niska 25 Bot 
4 Inger 52 Mensch 
5 Tobbe 17 Mensch 


Abb. 5.5 Dataframe in RStudio. (Quelle: eigene Darstellung) 
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Wert in der Klammer gibt den Zeilenindex an, nach einem Komma folgt die ge- 
wünschte Spalte. Wird der Zeilen- oder Spaltenindex leer gelassen, werden alle 
Werte in der entsprechenden Spalte bzw. Zeile aufgerufen. Tippen Sie die folgen- 
den Befehle in das Skript ein und führen Sie es aus, um die Funktionsweise zu 
verstehen 


e Alle Werte der ersten Zeile werden ausgewählt, zurückgegeben wird ein Data- 
frame mit allen Spalten: personen[1, ] 

e Alle Werte der ersten Spalte werden ausgewählt; da es sich nur um eine einzige 
Spalte handelt, wird ein Vektor zurückgegeben: personen[, 1] 

e Um einen einzelnen Wert auszuwählen, wird die Auswahl der Zeilen und Spal- 
ten kombiniert: personen[1, 1] 


Sollen mehrere Spalten oder Zeilen ausgewählt werden, dann wird an den entspre- 
chenden Stellen ein Vektor mit den Namen oder Nummern von Spalten bzw. Zeilen 


übergeben werden. Mit einem Doppelpunkt werden Bereiche festgelegt: 


e Auswahl mehrerer Spalten: personen [, c("name", "alter")] 
e Auswahl mehrerer Zeilen: personen[c (1:3), ] 


Für die Auswahl von Zeilen ist es häufig gewünscht, eine Auswahl nach festgeleg- 
ten Kriterien vorzunehmen. Die Kriterien werden dann vor dem Komma formuliert: 


personen[personen$alter > 30, ] 

Weitere Möglichkeiten zum Formulieren von Bedingungen finden Sie in 
Tab. 5.4. Bei der Formulierung der Bedingung kommt im Beispiel eine weitver- 
breitete Technik zum Adressieren einzelner Spalten zum Einsatz. Einzelne Spalten 
können mit dem Dollarzeichen gefolgt vom Spaltennamen ausgegeben werden: 


personenSname 


Alternativ können Spalten über ihre Nummer, die in doppelten eckigen Klam- 
mern angegeben wird, erreicht werden: 


personen[[1]] 
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Tab. 5.4 Wahrheitsbedingungen in R 


Beispiel Erläuterung 

typ == "Bot" Gleichheit 

typ != "Bot" Ungleichheit 

alter > 20 bzw.alter >= 20 Größer bzw. Größergleich 

alter < 20 bzw.alter <= 20 Kleiner bzw. Kleinergleich 

is.na(hashtags) Prüfen, ob ein Wert fehlt 

!is.na (hashtags) Mit dem Negator ! prüfen, ob ein Wert nicht 
fehlt 

(typ == "Bot") &(alter < 20) |Mitdem Operator & Ausdrücke über 
Und-Bedingungen verknüpfen 

(alter < 20) | (alter > 30) |Mit dem Operator | Ausdrücke über 


Oder-Bedingungen verknüpfen 


Beachten Sie, dass analog zu den Beispielen im Text jeweils der Datensatz ergänzt werden 
muss. (Quelle: Eigene Darstellung) 


Diese Notation mit doppelten eckigen Klammern oder dem Dollarzeichen funk- 
tioniert für alle Listen. Da ein Dataframe eine Liste aus Vektoren ist, wird im Bei- 
spiel das erste Element der Liste, das heißt der erste Vektor, angesprochen. 

Auf die gleiche Weise, das heißt aufbauend auf die Auswahl von Zeilen, Spalten 
und Zellen, können auch Werte verändert werden. So würde mit folgendem Bei- 
spiel die Namensspalte für alle Zeilen auf den Wert „anonym“ geändert werden: 


personen$name <- "anonym" 

Es wurde nur ein Wert zugewiesen, obwohl mehrere Zeilen betroffen sind. In 
diesem Fall wird der angegebenen Wert recycled und auf alle Zeilen übertragen. 
Stattdessen kann in einem Vektor für jede Zeile ein eigener Wert festgelegt werden: 

personen$name <- 
el 
"Bea", "Leo", "Niska", 
"Inger", "Tobbe" 


Wenn die Spalte noch nicht existiert, wird sie automatisch neu angelegt: 


personenSnummer <- c(1, 2, 3, 4, 5) 
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Um eine Spalte wieder zu löschen, wird der Wert NULL zugewiesen: 
personen$nummer <- NULL 


Diese Grundtechniken gehören zur Basisausstattung von R. Prägen Sie sich die 
Möglichkeiten zum Umgang mit Zeilen und Spalten ein, schlagen Sie immer 
wieder nach und kombinieren Sie die Befehle, um nach und nach eigene Routinen 
zu entwickeln. 

Neben den Dataframes kommen in einigen Fällen zwei ganz ähnliche, kom- 
plexe Datentypen zum Einsatz. Erstens: Wenn in allen Spalten einer Tabelle der 
gleiche Datentyp enthalten ist — zum Beispiel nur Zahlen —, dann kann dafür auch 
der Datentypmatrix eingesetzt werden. Matrizen haben den Vorteil, dass sie sich 
schnell umformen lassen und einige spezielle Rechenoperationen erlauben (siehe 
Abschn. 4.2.4). Zweitens: Aus dem Package tibble des Tidyverse-Universiums 
stammt der Datentyp tbl df. Dieser wird auch als Tibble bezeichnet und ist in 
den meisten Fällen eine etwas komfortablere Variante von Dataframes (siehe Ab- 
schn. 5.1.4). Beispielsweise ist die Ausgabe über den print () -Befehl kompakter. 

Zu Beginn ist die Vielfalt der Datentypen verwirrend, aber mit der Zeit werden 
Sie lernen, für welche unterschiedlichen Anwendungsfälle sie sich eignen. Der Typ 
eines Objekts kann mit der str () -Funktion festgestellt werden: 


str (personen) 


Diese Funktion hilft immer dann weiter, wenn man es mit unbekannten Objek- 
ten zu tun, etwas nicht funktioniert oder wenn man den Überblick verloren hat. 

Viele Typen lassen sich ineinander umwandeln, etwa um eine Zeichenkette in 
eine echte Zahl zu konvertieren: 


as.numeric ("1852") 


Umwandlungsfunktionen beginnen in R in der Regel mit as, sodass beim Ein- 
tippen von „as“ im Skript automatisch Funktionen vorgeschlagen werden. Mithilfe 
entsprechender Funktionen können auch Dataframes, Matrizen und Tibbles inei- 
nander überführt werden: 


as.matrix (personen) 
as.data.frame (personen) 
as tibble (personen) 
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Loops und andere Kontrollstrukturen Wenn Befehle auf mehrere Werte ange- 
wendet werden, kommen Kontrollstrukturen zum Einsatz — etwa wenn eine Liste 
oder ein Datensatz mit Personen vorliegt und man für jede Person einzeln das Alter 
bestimmen will. Kontrollstrukturen legen fest, wie und auf welchen Daten die ein- 
zelnen Befehle auszuführen sind. 


Mithilfe von For-Schleifen (engl. for-loop) kann man Funktionen auf die ein- 
zelnen Einträge einer Liste anwenden: 


for (item in personen$name) { 
message <- pasteO (item, " is a bot") 
print (message) 


Im Beispiel wird die Liste aller Personennamen verwendet. Innerhalb der 
for () -Anweisung wird diese Liste hinter dem Ausdruck in angegeben. Die Liste 
enthält die einzelnen Einträge, für diese Einträge wird der in geschweiften Klam- 
mern angegebene Codeblock jeweils einmal ausgeführt. Innerhalb des Codeblocks 
steht der jeweilige Eintrag dann im Objekt item zur Verfügung. Die Bezeichnung 
item kann man beliebig austauschen; die Schleife würde ebenso mit folgender 
Formulierung funktionieren: 


for (name in personen$name) { 
message <- pasteO (name, " is a bot") 
print (message) 


Diese beiden For-Schleifen erzeugen dementsprechend beide den glei- 
chen Output: 


[1] "Bea is a bot" 
[1] "Leo is a bot" 
[1] "Niska is a bot" 
[1] "Inger is a bot" 
[1] "Tobbe is a bot" 


Im Beispiel ist nun jedoch nicht jede Person auch tatsächlich ein Bot. Aus der 
Spalte typ lässt sich entnehmen, dass einige Personen Menschen sind. Um das zu 
berücksichtigen, kann man den Programmablauf durch If-Bedingungen verzwei- 
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gen. Dadurch werden die Funktionen nur dann ausgeführt, wenn eine bestimmte 
Bedingung erfüllt ist — etwa nur, wenn in der Spalte typ der Eintrag „Bot“ steht. 
Dafür benötigt man innerhalb der Spalte nicht nur den Namen einer Person, 
sondern auch deren Typ. Insofern reicht es nicht aus, über eine einzelne Liste zu 
loopen. Stattdessen kann man die Zeilen eines Datensatzes durchlaufen, indem man 
über eine Liste der Zeilenindizes (das sind die Nummern, mit denen eine Zeile ad- 
ressierbar ist) iteriert. Mit dem Ausdruck 1:nrows (personen) lässt sich eine 
solche Liste erzeugen.'” Innerhalb des Codeblocks kann dann die betroffene Zeile 
wie oben beschrieben zur Weiterverarbeitung ausgewählt werden (Abschn. 5.1.3): 


for (i in l:nrow(personen)) { 
row = personen[i, ] 


if (rowStyp == "Bot") { 
message <- pasteO (row$name, " is a bot") 
print (message) 


Die einzelnen Zeilen liegen dann im Objekt row vor. Für jede einzelne Zeile 
lässt sich schließlich entscheiden, ob in dieser Zeile das Merkmal „Bot“ enthalten 
ist. If-Anweisungen enthalten eine Wahrheitsbedingung, die hier über den Ver- 
gleichsoperator == erstellt wird. Ist die Bedingung erfüllt, wird eine Meldung aus- 
gegeben. Anderenfalls geschieht nichts. Solche Wahrheitsbedingungen (engl. boo- 
lean expressions) werden ebenso für das Filtern von Datensätzen benötigt 
(Abschn. 5.1.4) und können miteinander kombiniert werden, wobei es sich emp- 
fiehlt, Teilausdrücke in Klammern anzugeben (Tab. 5.4). 

Eine Erweiterung der If-Bedingung stellt die If-else-Verzweigung dar. Der 
Else-Block wird immer dann ausgeführt, wenn die If-Bedingung nicht erfüllt ist: 


if (rowStyp == "Bot") { 
message <- pasteO (row$name, " is a bot") 
} else { 
message <- paste0O(rowSname, " is a human") 


print (message) 


Die Funktion nrows () bestimmt die Anzahl der Zeilen des Dataframe personen. Im 
Beispieldatensatz sind das fünf Zeilen. Durch den Doppelpunkt wird ein Bereich markiert, 
also der Bereich von eins bis fünf: 1, 2, 3, 4, 5. 
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Für komplexere Anwendungsfälle lassen sich beliebig viele If-else-Anweisungen 
aneinanderhängen, wobei schrittweise die Bedingungen durchgeprüft und dann 
nur der erste passende Block ausgeführt wird: 


if (rowSalter < 20) { 
print ("A young person") 

} 

else if (rowSalter < 30) { 
print ("A twen") 

} 

else { 


print ("How old is old?") 


Schleifen, Bedingungen und Verzweigungen sind die Basiswerkzeuge der meis- 
ten Programmiersprachen. Charakteristisch für R sind darüber hinaus vektorisierte 
Funktionen, die auch ohne Schleifen eine Liste von Werten verarbeiten können. 
Viele Basisfunktionen sind bereits vektorisiert, so loopt der pasteO () -Befehl 
automatisch über die Liste der Personennamen und hängt an jeden Eintrag eine 
Zeichenkette an: 


pasteO (personen$name, " is alive.") 


Ist eine Funktion noch nicht vektorisiert, kann sie über Lapply () (abgekürzt 
von engl. list apply) auf jedes einzelne Element angewendet werden. Als ersten 
Parameter gibt man die Liste an, der zweite Parameter enthält den Funktionsna- 
men. Beim Ausführen wird jeweils ein Eintrag der Liste als erster Parameter dieser 
Funktion verwendet. Angaben an späteren Stellen werden als weitere Parameter an 
die Funktion übergeben: 


lapply(personen$name, paste0, " is a bot") 


Da paste () bereits vektorisiert ist, leistet dieser Aufruf im Prinzip das Glei- 
che wie die direkte Verwendung von pasteO (). Einen Unterschied gibt es aller- 
dings: lapply() gibt selbst auch wieder eine Liste zurück. Vergleichen Sie die 
Outputs! Und auch wenn es im Beispiel noch nicht nötig wäre, können Sie sich 
dieses Muster bereits jetzt merken. Denn Vektorisierung erhöht meistens die Effi- 
zienz von Code — Berechnungen lassen sich intern beschleunigen und das Skript 
wird kompakter. 
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5.1.4 Grundlagen der Datenanalyse 


Eine besondere Sammlung von Funktionen für die Aufbereitung und Analyse von 
Daten ist das Tidyverse.'* Zum Tidyverse gehört eine Reihe von Packages, deren 
Funktionen im Folgenden eingeführt werden: 


e tibble führt einen Datentyp tb1_df ein, der die Dataframes von R verbessert 
(Müller et al. 2022b). 

e readr, readxl und writexl erleichtern das Einlesen und Speichern von Datensät- 
zen mit Funktionen wie read_csv() und read_x1sx() (Wickham et al. 
2022b, e; Ooms und McNamara 2021). 

e dplyr stellt Funktionen für das Filtern, Zusammenführen und Aggregieren von 
Datensätzen bereit, als Alternative zu den oben besprochenen Selektionsbefeh- 
len (Wickham et al. 2022a). 

e tidyr dient der Umformung von Datensätzen zwischen Wide- und Long-Format 
(Wickham und Girlich 2022; siehe Abschn. 4.2.4). 

e skimr erlaubt mit der skim () -Funktion einen schnellen Überblick über die 
Variablen eines Datensatzes (Waring et al. 2022). 

e ggplot2 stellt eine Vielzahl mächtiger Funktionen zum Erzeugen von Grafiken 
bereit (Wickham et al. 2022c). 


Weitere niitzliche Packages aus dem Tidyverse beziehen sich auf spezielle Daten- 
typen wie stringr für Zeichenketten sowie reguläre Ausdrücke (Wickham 2019a; 
siehe Abschn. 4.1.1), /ubridate für Datums- und Zeitangaben (Spinu et al. 2021) 
und DBI für den Zugriff auf Datenbanken wie MySQL (Müller et al. 2022a; siehe 
Abschn. 3.3). 

Das wichtigste Konzept des Tidyverse besteht darin, die Welt durch eine vier- 
eckige Brille zu betrachten: Alle Daten werden möglichst in der Form von Tibbles 
verarbeitet. Tibbles funktionieren wie ganz normale Tabellen, für die gilt: Jede 
Beobachtungseinheit wird in einer Tabelle erfasst, jede Variable in einer Spalte, 
jede Beobachtung in einer Zeile und jeder Wert in einer Zelle (siehe Abschn. 4.2). 
Bei der Verwendung von Tidyverse-Funktionen ersetzen Tibbles automatisch die 
in R eingebauten Dataframes. Dadurch sind die verschiedenen Funktionen des 
Tidyverse häufig untereinander besser kompatibel als die R-Basisfunktionen und 
besonders für die Datenaufbereitung zu empfehlen. Nicht immer ist die Arbeit mit 
dem Tidyverse allerdings übersichtlicher oder schneller als mit den Basis-R- 
Funktionen, deshalb sollte man sich in beide Bereiche einarbeiten. 


13 Siehe Wickham (2019b; https://www.tidyverse.org). 
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^ id favorites replies retweets 
1 1 

2 2 eaduenergy 

3 3 eaduenergy image 
^ id from media metric 

1 1 eaduenergy text favorites 

2 1 eaduenergy text replies 

3 1 eaduenergy text retweets 

4 2 eaduenergy text favorites 9 

5 2 eaduenergy text replies 0 
6 2 eaduenergy text retweets 8 

7 3 eaduenergy image favorites 6 
8 3  eaduenergy image replies 0 

9 3 eaduenergy image retweets 


Abb. 5.6 Umformen vom Wide- ins Long-Format. Fantasiedaten nur zu Demonstrations- 
zwecken. (Quelle: eigene Darstellung) 


Datensätze einlesen und abspeichern Die bisherigen Beispiele bezogen sich auf 
einen sehr kleinen Datensatz, der als Dataframe direkt im Skript erstellt wurde. In 
der Regel liegen die Daten aber in eigenen Dateien vor, zum Beispiel in CSV- 
Dateien. Mit dem CSV-Format können nahezu alle Programme umgehen, die zur 
Erfassung oder Analyse von Daten eingesetzt werden (siehe Abschn. 3.3). Die Bei- 
spiele der folgenden Kapitel beziehen sich auf den in Abb. 5.6 dargestellten Daten- 
satz (® Repositorium). 


Das Einlesen und Speichern von CSV-Dateien gehört zu den Basisfunktionen 
von R, ein Beispiel ist die Funktion read.csv (). Günstiger sind aber in 
der Regel die Funktionen aus dem Tidyverse, die mit einem Unterstrich statt 
Punkt geschrieben werden. Beispiele sind aus dem readr-Package die Funktionen 
read_csv() sowie read_csv2 (). Dieses Package wird automatisch geladen, 
wenn man das tidyverse-Package lädt. Sind die Daten mit einem Komma getrennt 
(engl. comma separated values), wird die Funktion read_csv () verwendet. Mit 
Semikolon getrennte Daten liest die Funktion read_csv2 () ein: 
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library (tidyverse) 
tweets <- read_csv2 ("example-tweets.csv") 


Diese Funktion nimmt als ersten Parameter den Dateinamen in Anführungszei- 
chen entgegen und gibt den Datensatz als Tibble zurück. Je nach Aufbau der Datei 
werden andere Funktionen oder weitere Parameter benötigt. Wenn die Daten mit 
einem Tabulator getrennt sind (engl. tab separated values), dann hilft die Funktion 
read _tsv().Die Funktion read_delim() lässt sich umfangreich konfigurie- 
ren, um weitere Varianten von CSV-Formaten zu berücksichtigen. Der folgende 
Aufruf wäre identisch mit read_csv2 (), da ein Semikolon als Trennzeichen 
definiert wird: 


tweets <- read delim("example-tweets.csv", delim=";") 


Die Funktionen im Tidyverse haben meistens passendere Voreinstellungen als 
die Basisfunktionen, beispielsweise behandeln sie Text als Text und nicht als Fak- 
tor. Analog stehen Funktionen zum Speichern von CSV-Dateien zur Verfügung. 
Als erster Parameter wird dann der Datensatz angegeben und der zweite Parameter 
bestimmt den Dateinamen: 


write csv(tweets, "tweets.csv") 


Wenn man konsequent mit Funktionen aus dem Tidyverse arbeitet, dann lassen 
sich die meisten Ergebnisse als Tabellen abspeichern, zum Beispiel das Ergebnis 
der unten besprochenen count () -Funktion. Im folgenden Beispiel wird das Er- 
gebnis zunächst in einem eigenen Objekt abgelegt und dann als CSV-Datei abge- 
speichert: 


tweets jeautor <- count (tweets, from) 
write _csv(tweets jeautor, "tweets jeautor.csv") 


Auf diese Weise lässt sich der Output der Datenanalyse gut dokumentieren und 
weiterverwenden. Auch beim Abspeichern sind verschiedene CSV-Varianten mög- 
lich. Die folgende Funktion verwendet als Trennzeichen ein Semikolon, als 
Dezimalzeichen das Komma und markiert die Zeichenkodierung als UTF-8 (mit 
einer Byte Order Mark, siehe Abschn. 3.3). Diese Voreinstellungen sind besonders 
für den Austausch mit Excel geeignet: 
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write excel csv2 ( 
tweets jeautor, 
"tweets jeautor.csv" 


Für den Austausch mit Excel gibt es in den Paketen readx! und writexl auch ei- 
gene Funktionen:'* 


write xlsx(tweets jeautor, "tweets jeautor.xlsx") 
tweets jeautor <- read_xlsx("tweets jeautor.xlsx") 


Die Dateienamen beziehen sich in allen Fallen auf das aktuelle Arbeitsverzeich- 
nis. Wenn man mit RStudio ein Projekt angelegt hat, dann ist das Arbeitsverzeich- 
nis zu Beginn immer das Projektverzeichnis. Es können zum Einlesen der Dateien 
und zum Speichern relative Pfade verwendet werden, durch die auf Unterordner im 
Arbeitsverzeichnis verwiesen wird. Ebenso kann durch die Angabe . . / zu Beginn 
des Pfades eine Ordnerebene aufwärts navigiert werden. Es empfiehlt sich, Daten 
und Ergebnisse in Unterverzeichnissen abzulegen, zum Beispiel in einem Unter- 
verzeichnis mit dem Namen „daten“: 


write xlsx(tweets, "daten/example-tweets.xlsx") 
tweets <- read_xlsx("daten/example-tweets.xlsx") 


Datenaufbereitung mit dem Tidyverse Liegen die Daten in einem Tibble vor, 
können sie mit select () bzw. filter () auf die relevanten Spalten bzw. Zeilen 
zugeschnitten werden. Beide Funktionen erwarten als erstes Argument ein Tibble 
und geben ein Tibble zurück. Die folgende Anweisung wählt alle Zeilen aus, bei 
denen in der Spalte £rom der Wert „unialdera“ steht, und legt das Ergebnis im 
Objekt auswahl ab: 


auswahl <- filter (tweets, from == "unialdera") 


14 Für die Arbeit mit Textkorpora müssen manchmal Textdateien oder auch Worddokumente 
eingelesen werden — Beispiele dafür finden Sie in Kap. 9. Bei Dateien aus anderen Statistik- 
programmen wie SPSS, Stata oder SAS hilft das Paket haven weiter (Wickham, Miller & 
Smith 2022). 
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Derartige Filterbedingungen können mit den gleichen Wahrheitsausdrücken 
wie bei If-Bedingungen formuliert werden (siehe Abschn. 5.1.3). Eine Besonder- 
heit im Tidyverse besteht darin, dass Spaltennamen immer ohne Anführungszei- 
chen und ohne Bezug auf das Tibble angegeben werden. In den Basisfunktionen 
wäre dagegen die Angabe tweets$from == "unialdera" nötig. 

Eine Auswahl von Spalten wird mit select () erreicht, die gewünschten 
Spalten wie beispielsweise from und favorites werden hinter dem Tibble 
aufgezählt: 


auswahl <- select (tweets, from, favorites) 


Die Funktionen aus dem Tidyverse sind meistens ähnlich aufgebaut, verlangen 
fast immer als ersten Parameter ein Tibble und geben zudem ein Tibble zurück. 
Dadurch lassen sich verschiedene Funktionen mit dem Pipe-Operator %>% anei- 
nanderketten. Da dieser Operator häufig eingesetzt wird, können Sie sich die Tasten- 
kombination dafür angewöhnen (Mac: Command + Shift + M; Windows: Strg + 
Shift + M). Der Pipe-Operator schiebt das vorangegangene Objekt in den ersten 
Parameter einer Funktion, sodass die folgenden beiden Aufrufe identisch sind: 


select (tweets, from, favorites) 
tweets %>% select (from, favorites) 


Die Pipe wird dann nützlich, wenn mehrere Aufbereitungsschritte nacheinander 
ausgeführt werden sollen: 


reactions <- tweets %>% 
filter (media == "image") %>% 
mutate (react = favorites + replies + retweets) %>% 
select (from, react) %>% 
arrange (-react) 


Jedem Befehl hinter einer Pipe wird als erster Parameter automatisch das vor- 
herige Ergebnis übergeben. So werden in dem Beispiel zunächst alle Zeilen des 
Datensatzes tweets herausgefiltert, in denen in der media-Spalte der Wert 
„image“ steht. Sodann wird mit mutate () eine neue Spalte react erstellt, in 
der die verschiedenen Reaktionen je Tweet summiert werden. Im nächsten Schritt 
werden aus dem gefilterten und ergänzten Tibble die Spalten from und react 
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Tab. 5.5 Datenaufbereitungsfunktionen aus dem Tidyverse (Auswahl) 


Funktion Beschreibung 

filter () Auswählen von Zeilen in Datensätzen 

select () Auswählen oder Umbenennen von Spalten 

rename () Umbenennen von Spalten 

arrange () Sortieren von Zeilen in Datensätzen 

mutate () Neuerstellen von Spalten 

count () Zählen von Zeilen, ggf. nach den Werten in ausgewählten Spalten 

group_by () Gruppieren von Zeilen in Datensätzen 

ungroup () Auflösen einer Gruppierung 

summarize () Aggregieren von Zeilen, zum Beispiel zur Berechnung von 
Summen oder zur Bestimmung der Anzahl innerhalb einer Gruppe 

slice sample () | Ziehen einer Zufallsauswahl 

slice max () Auswählen von Zeilen mit den größten Werten in einer 
ausgewählten Spalte 

pivot_longer () | Umformen vom Wide- in das Long-Format (tidyr-Package) 


pivot_wider () Umformen vom Long- in das Wide-Format (tidyr-Package) 


Sofern nicht anders angegeben, stammen die Funktionen aus dem dplyr-Package. Quelle: 
Eigene Darstellung 


ausgewählt. Schließlich wird mit arrange () sortiert, das Minuszeichen sorgt für 
eine absteigende Sortierung der Spalte react. Abgespeichert wird das finale Tib- 
ble unter der Bezeichnung reactions. Mit der Pipe wird der erste Parameter 
also jeweils übersprungen, da er aus der Zeile vorher stammt. Diese Aneinander- 
kettung funktioniert insbesondere mit den Funktionen aus dem Package dplyr sehr 
gut (Tab. 5.5) und spart Zuweisungen ein, was für eine bessere Übersichtlich- 
keit sorgt. 

Manchmal müssen Daten vom Wide- in das Long-Format oder umgekehrt um- 
geformt werden (siehe Abschn. 4.2.1). So liegen im Beispieldatensatz (® Reposi- 
torium) Reaktionen auf einen Tweet in den Spalten favorites, replies und 
retweets vor. Für einige Analysen kann es hilfreich sein, alle Reaktionen in ei- 
ner einzigen Spalte zu erfassen. Die nebeneinanderstehenden (= wide) Spalten sol- 
len also zu untereinanderstehenden (= long) Zeilen umgeschichtet werden. Dafür 
kommt die Funktion pivot_longer() aus dem tidyr-Package zum Einsatz. 
Dem Parameter cols gibt man eine Liste der Spalten mit, die zusammengefasst 
werden. Im Parameter names_to wird festgelegt, wie die Spalte mit den ur- 
sprünglichen Spaltennamen heißen soll. Wenn nicht anders festgelegt, landet die 
Anzahl der jeweiligen Reaktionsart in der value-Spalte: 
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tweets_long <- tweets %>% 
pivot_longer ( 
cols = c (favorites, replies, retweets), 
names to = "metric", 
values _to = "value" 


Das neue Tibble tweets_long enthält nun dreimal mehr Zeilen als das alte 
Tibble tweets, da nun alle Reaktionen untereinander aufgeführt sind (Abb. 5.6). 
Diese Umstrukturierung ermöglicht es beispielsweise, die Mittelwerte für alle Re- 
aktionsarten auf einmal auszurechnen (siehe unten). 


Funktionen für die Datenanalyse Am Anfang der Datenanalyse steht in der Re- 
gel die Beschreibung des Datensatzes. Mit der count () -Funktion lässt sich zu- 
nächst die Anzahl der Fälle auszählen: 


tweets %>% count () 


Wenn der Datensatz in einer Spalte kategoriale Merkmale wie Namen enthält, 
lässt sich die Fallzahl für jede einzelne Gruppe ermitteln: 


tweets %>% count (from) 


Damit wird ein typisches Szenario der Datenanalyse umgesetzt, das als 
Split-Apply-Combine bezeichnet wird (siehe Abschn. 4.2.4). Ein Datensatz wird 
zunächst in Teilgruppen aufgeteilt, dann wird auf diese Teilgruppen eine Funktion 
angewendet und schließlich wird das Ergebnis zusammengefügt. Das gleiche Er- 
gebnis lässt sich mit einer Kombination aus group_by() zum Aufteilen der 
Gruppen, summarize () für die Zusammenfassung jeder Gruppe und schließlich 
ungroup () zum Auflösen der Gruppierung erzielen: 


tweets %>% 
group_by (from) %>% 
summarize(n = n()) 


ungroup () 


Verwirrend ist möglicherweise das doppelte Vorkommen von n innerhalb der 
summarize () -Funktion. Vor dem Gleichheitszeichen wird der Name der Spalte 
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angegeben, in der das Ergebnis gespeichert werden soll. Sie können diese einfach 
umbenennen, z. B. zu anzahl. Nach dem Gleichheitszeichen wird die Funktion 
n () mit leeren Klammern aufgerufen, das heißt ohne Argumente. Diese Funktion 
zählt die Anzahl der Zeilen innerhalb der Gruppe. 

Im nächsten Schritt interessieren meist die Zusammenhänge zwischen mehre- 
ren Variablen. Die Kombination von mehreren kategorialen Variablen kann eben- 
falls mit count () ausgezählt werden, etwa um die Anzahl der Bilder, Links und 
Texte (Spalte media) verschiedener Accounts (Spalte £rom) zu vergleichen: 


tweets %>% 
count (from, media) 


Daraus wird eine Kreuztabelle mit den media-Werten als Spalten, wenn man 
das Ergebnis in das Wide-Format umformt — probieren Sie es aus und ändern Sie 
dabei den Parameter names from = media auch einmal auf from, um das 
Prinzip zu verstehen: 


tweets %>% 
count (from, media) %>% 
pivot_wider (names from = media, values from = n) 


Liegen dagegen metrische Daten wie die Anzahl der Favorites oder Altersanga- 
ben vor, beschreibt man die Verteilungen durch Kennwerte wie den Mittelwert und 
die Standardabweichung, Minimum und Maximum oder Quartile. Der Mittelwert 
kann mit der R-Basisfunktion mean () ausgerechnet werden: 


mean (tweets$favorites) 


Um mehrere Gruppen hinsichtlich metrischer Merkmale zu vergleichen, kann 
wiederum summarize () verwendet werden: 


tweets %>% 
group_by(from) %>% 
summarize (favs = mean (favorites)) %>% 


ungroup () 


Liegen die Daten im Long-Format vor (siehe oben), kann der Mittelwert 
gleich fiir mehrere Reaktionsarten ausgerechnet werden. Mit dem Parameter 
na.rm = T werden dabei fehlende Werte ignoriert: 
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tweets_long %>% 
group_by (metric) %>% 
summarize(m = mean (value, na.rm = T)) %>% 


ungroup () 


Zu beachten ist bei der Verwendung von summarize () , dass im Ergebnis nur 
die Gruppierungsvariablen und die innerhalb der Funktion neu erstellten Spalten 
übrig bleiben. Auch wenn innerhalb von summarize () im Prinzip mehrere neue 
Variablen gleichzeitig berechnet werden könnten, ist es etwas mühsam, auf diese 
Weise für mehrere Variablen verschiedene Kennwerte wie Mittelwerte, Stan- 
dardabweichungen und Quartile zu berechnen. Einen schnelleren Überblick über 
die Variablen eines Datensatzes erhält man mit der Funktion skim() aus dem 
skimr-Package: 


library (skimr) 
tweets %>% skim(favorites) 


Um Kategorien hinsichtlich metrischer Merkmale zu vergleichen, wird skim () 
mit group_by() kombiniert: 


tweets %>% 
group_by (media) %>% 
skim(favorites, replies, retweets) %>% 
ungroup () 


Für den Zusammenhang zwischen zwei metrischen Merkmalen wird schließ- 
lich auf die Korrelationsanalyse zurückgegriffen: 


cor (tweets$favorites, tweets$replies) 


Die aufgeführten Befehle gehören zum Standardrepertoire der deskriptiven Da- 
tenanalyse. Darüber hinaus ist das Basiswerkzeug für die statistische Analyse me- 
trischer Merkmale die lineare Regression." Ein lineares Regressionsmodell — wenn 
man den statistischen Zusammenhang zwischen abhängigen und unabhängigen Va- 


15 Mit Regressionsanalysen wird der Einfluss der unabhängigen Variablen auf die abhängigen 
Variablen modelliert, etwa der Einfluss von Alkoholkonsum auf die Leistungsfähigkeit. Eine 
umfassende Einführung findet sich in Field, Miles & Field (2012). Spezifische Regressions- 
modelle können auch für kategoriale Daten verwendet werden, siehe Abschn. 8.1. 


5.1 Einführung in die Datenanalyse mit R 165 


riablen prüfen will — wird über die Funktion Im () erstellt. Die Funktion nimmt 
zunächst die abhängige Variable entgegen, gefolgt von einer Tilde - und dann der 
unabhängigen Variable oder einer Kombination mehrerer unabhängiger Variablen. 
Über den Parameter data wird der Datensatz mitgegeben. Der Output der Funktion 
kann in einem beliebigen Objekt abgelegt werden — im Beispiel fit. Das Auftreten 
von Favorites in Abhängigkeit der Retweets wird beispielsweise bestimmt über: 


fit <- lm(favorites ~ retweets, data = tweets) 


Über summary (fit) werden dann gängige Kennwerte der Regressionsanalyse 
wie der Interzept, die Gewichtungsfaktoren und Signifikanzmaße ausgegeben 
(Abb. 5.7). 

R bringt eine Vielzahl weiterer Analysefunktionen, statistischer Tests und Model- 
lierungswerkzeuge mit. Versuchen Sie herauszufinden, wie die Funktionen in Tab. 5.6 
funktionieren: Geben Sie die Namen in ein R-Skript ein, setzen Sie den Cursor auf den 
Namen und rufen Sie dann in RStudio mit der Taste F1 die Hilfe auf. Alternativ gelan- 
gen Sie auch zur Hilfe, indem Sie dem Funktionsnamen vorangestellt ein ? eintippen 
und die entsprechende Zeile im Skript oder in der Konsole ausführen, zum Beispiel 


call: 
Im(formula = favorites ~ retweets, data = tweets) 


Residuals: 
Min 1Q Median 3Q Max 
-13.798 -5.893 -2.400 2.064 56.056 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 5.9727 2.9192 2.046 0.0477 * 
retweets 1.9709 0.8987 2.193 0.0345 * 


Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘°’ 1 


Residual standard error: 11.79 on 38 degrees of freedom 
(35 Beobachtungen als fehlend gelöscht) 

Multiple R-squared: 0.1123, Adjusted R-squared: 0.08898 

F-statistic: 4.809 on 1 and 38 DF, p-value: 0.0345 


Kennwerte zum gesamten Modell: R?, F-Wert und fehlende Daten 


Kennwerte zu den Regressionskoeffizienten: Gewicht (Estimate), 
Standardfehler (Std. Error) und Signifikanzwert (Pr). 


Verteilung der Residuen: durch das Modell nicht erklärte Streuung 


Abb. 5.7 Output einer Regressionsanalyse in R. Das Beispiel dient nur zu Demonstrations- 
zwecken, es handelt sich um fiktive Daten. (Quelle: eigene Darstellung) 
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Tab. 5.6 R-Basisfunktionen für die Datenanalyse 


Funktion Beschreibung 

table () Häufigkeiten und Kreuztabellen 

mean () Mittelwerte 

sd() Standardabweichungen 

summary () Fiinf-Punkte-Zusammenfassung (fiir metrische Variablen) 
cor.test () Korrelation inklusive Signifikanztest 

1m () Lineare Modelle (Regression) 

plot () Grafiken, beispielsweise Streudiagramme 

boxplot () Boxplots 


Quelle: eigene Darstellung 


?table. Eine weiterführende Übersicht über gängige Szenarien der statistischen Da- 
tenanalyse und wie sie mit R umgesetzt werden, finden Sie auf der Quick-R-Seite bei 
Kabacoff'‘ oder in Field, Miles & Field (2012). 


5.1.5 Grafiken 


Ein zentraler Teil der Datenauswertung besteht in der Visualisierung von Ergebnis- 
sen. Vor der Gestaltung von Grafiken sollte man sich zunächst vor Augen halten, 
welche Daten visualisiert und welche Erkenntnisse dadurch gewonnen werden sol- 
len. Wichtig ist bei der Interpretation immer, dass eine Grafik nur eine Repräsenta- 
tion des Gegenstandes und nicht der Gegenstand selbst ist. 

Inspiration und Lösungsvorschläge für die Visualisierung mit R finden Sie in 
der R Graph Gallery.!’ Das Paket ggplot2 stellt nicht nur eine beeindruckende 
Menge an Funktionen bereit, sondern integriert die Funktionalitäten in ein aufge- 
räumtes Gesamtkonzept und etabliert damit eine Art Grafiksprache.'® Die Grund- 
idee besteht darin, dass Daten visuellen Elementen zugeordnet (engl. mapping) 
werden und diese anschließend durch das Übereinanderlegen von Schichten mit 
Gestaltungselementen grafisch aufbereitet werden. Die Schichten enthalten Infor- 
mationen wie den Diagrammtyp, die Farben und Achsenbeschriftungen. 


Grafiken erstellen Um eine Grafik zu erstellen, wird zunächst das Package gg- 
plot2 geladen und es wird die Funktion ggplot () aufgerufen. Dieser Funktion 


16 Siehe Kabacoff (2017; https://www.statmethods.net). 
17 Siehe Holtz (2018; https://www.r-graph-gallery.com/). 
18 Das Konzept geht zurück auf das Buch „The Grammar of Graphics“ (Wilkinson 1999). 
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werden Angaben mitgegeben, die für die gesamte Grafik gelten. Als erstes Argu- 
ment nimmt sie den Datensatz, der visualisiert wird, entgegen. Als zweites Argu- 
ment wird die Funktion aes () zur Zuordnung von grafischen Elementen zu Daten 
angegeben. Dabei wird unter anderem festgelegt, welche Daten auf die x- und wel- 
che auf die y-Achse geplottet werden oder anhand welcher Merkmale die Grafik 
eingefärbt werden soll. Zu diesem Grundobjekt werden anschließend durch das 
Plus-Zeichen + weitere Schichten hinzugefügt. So benötigt es mindestens eine 
weitere Schicht, um den Diagrammtyp festzulegen. Welche Diagrammtypen sich 
jeweils eignen, hängt von den Datentypen ab (Abb. 5.8): 
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Abb. 5.8 Streudiagramm (links oben), Säulendiagramm (rechts oben), Boxplot (links un- 
ten) und Mosaikplot (rechts unten) mit ggplot2. Basis: 75 Fantasie-Tweets, nur zu Demons- 
trationszwecken geeignet. (Quelle: eigene Darstellung) 
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Streudiagramme eignen sich besonders dann, wenn zwei metrische Variab- 
len ins Verhältnis gesetzt werden. Ein Streudiagramm wird mit dem Funktions- 
aufruf geom point () erstellt. Soll beispielsweise das Verhältnis zwischen 
den Variablen favorites und retweets ermittelt werden, können diese 
Daten direkt auf die x- und y-Achse projiziert werden: 


ggplot (tweets, aes(x = retweets, y = favorites)) + 
geom_point () 


Boxplots visualisieren die Verteilung der Werte einer einzelnen metrischen 
Variablen, gegebenenfalls getrennt nach Gruppen. Die notwendigen Parameter 
für die Verteilung werden dabei von der Funktion geom boxplot () selbst 
ermittelt. Um die Verteilung der Favorites je Account zu sehen, können die Na- 
men der Accounts auf die x-Achse und die Favorites auf die y-Achse geplot- 
tet werden: 


ggplot (tweets, aes(x = from, y = favorites)) + 
geom_boxplot () 


Liegen kategoriale Daten vor, kann deren Anzahl über Balken- oder Säulen- 
diagramme dargestellt und verglichen werden. Die einzelnen Werte einer Ka- 
tegorie werden zuvor ausgezählt. Anschließend wird das Balken- bzw. Säulen- 
diagramm mit geom_bar () bzw. geom_col() erstellt. Um auszuzählen, 
wer am meisten Tweets verfasst hat, kann die jeweilige Anzahl der Tweets 
über count (from) ermittelt und in der Spalte n abgelegt werden. In der 
aes () -Funktion wird dann die Spalte from auf die x-Achse und der Wert 
n auf die y-Achse gemappt: 


tweets %>% 
count (from) %>% 
ggplot(aes(x = from, y = n)) + 
geom_col() 


Die Kombination mehrerer Kategorien kann in Mosaikplots visualisiert wer- 
den. Ähnlich zu einem Balkendiagramm entspricht der Flächeninhalt (bestimmt 
durch Breite und Höhe) der Anzahl der Datensätze mit der jeweiligen Kombina- 
tion. Hierzu eignet sich das Package ggmosaic (Jeppson et al. 2021). 
Die Kombination wird in diesem Fall direkt in geom mosaic () über die 
product () -Funktion definiert: 


5.1 Einführung in die Datenanalyse mit R 169 


library (ggmosaic) 
tweets %>% 
ggplot () + 
geom mosaic(aes (product (media, from))) 


Mit ggplot und entsprechenden Zusatzpaketen können viele weitere interes- 
sante Grafiken wie Heatmaps, Konturdiagramme, Karten mit geografischen Infor- 
mationen oder Netzwerke erstellt werden. Weitere Anregungen und Hinweise auf 
Tutorials finden Sie unter anderem auf der Webseite des ggplot-Pakets oder im 
Buch „R for Data Science“ (Wickham und Grolemund 2016).'? 


Grafiken gestalten Um Grafiken weiter auszugestalten, werden Parameter in den 
aufgerufenen Funktionen angegeben oder zusätzliche Gestaltungselemente in 
Schichten mit einem + angehängt.” Mögliche Optionen, um das Streudiagramm 
aus Abb. 5.8 weiter zu gestalten, sind: 


e Farbe: Möchte man Farbe ins Spiel bringen, wird in der aes () -Funktion fest- 
gelegt, anhand welcher Variable die Grafik eingefärbt werden soll, etwa um für 
jeden Account eine eigene Farbe zu verwenden. Standardmäßig ist dabei eine 
Farbpalette von ggplot2 hinterlegt, die bei Bedarf aber auch abgeändert werden 
kann — etwa mittels einer zusätzlichen Schicht: 


scale fill manual ( 
values = c("blue", "green", "red", "yellow") 


Dabei müssen so viele Farben angegeben werden, wie es Ausprägungen der 
eingefärbten Variable gibt. 

e Positionierung: Die Gestaltung der Punkte des Streudiagramms kann ver- 
ändert werden, indem der geom_point () -Funktion weitere Parameter 
mitgegeben werden. Über position = "jitter", werden die Punkte 
je ein klein wenig von ihrer eigentlichen Position verschoben, wodurch 
überlappende Werte sichtbar werden. Alternativ könnte man auch einen 


Siehe Wickham et al. (2022d; https://ggplot2.tidyverse.org/#learning-ggplot2) und Wick- 
ham und Grolemund (2016; https://r4ds.had.co.nz/data-visualisation.html). 

?°Eine umfängliche Auflistung aller Befehle zum Gestalten von Plots mithilfe von ggplot2 
findet sich in der Dokumentation bei Wickham et al. (2022c; https://ggplot2.tidyverse.org/ 
reference/). 
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alpha-Wert setzen, der die Punkte transparenter macht. Welche Optionen 
in einem Diagramm möglich sind, ist in der Hilfe zum jeweiligen geom- 
Objekt dokumentiert. Säulen können beispielsweise gestapelt werden, in- 
dem die Funktion geom_col() um den Parameter position = 
"stack" ergänzt wird. 

e Skalen: Liegen schiefe Verteilungen vor, dann werden die Fälle mit kleineren 
Werten besser sichtbar, wenn man die Skala transformiert. Für eine Umwandlung 
der y-Achse in eine logarithmierte Skala wird die Schicht scale_y_1log10 () 
hinzugefügt, analog dazu wird die x-Achse mit der zusätzlichen Schicht 
scale x log10() transformiert. 0-Werte werden durch das Logarithmie- 
ren unendlich groß und sind damit nicht darstellbar. Ein einfacher Trick besteht 
darin, alle Werte vor dem Logarithmieren um eins zu erhöhen, beispielsweise 
durch x = favorites + 1. Dadurch gehen keine Werte verloren, solche 
Umwandlungen dürfen jedoch nicht bei der anschließenden Interpretation über- 
sehen werden.” 

e Layout: Mitunter ist es übersichtlicher, für jede Kategorie eines Datensatzes 
eine eigene Grafik zu erstellen, das heißt zu facettieren. Mit der Schicht 
facet_wrap(- from) würde für jeden Account eine einzelne Teilgrafik 
erstellt werden. 

° Beschriftungen: Achsenbeschriftungen und Titel lassen sich über die Funktio- 
nen labs () undggtitle () hinzufügen.” 

° Themes: Das allgemeine Erscheinungsbild von Grafiken lässt sich durch The- 
mes steuern. Im folgenden Beispiel wird über themes_bw () ein einfaches 
Schwarz-Weiß-Thema verwendet und über den Parameter base_ size wird 
die zugrunde liegende Schriftgröße aller Textelemente festgelegt. Tipp: Um ein 
solches Thema für alle Grafiken in einem Skript vorzugeben, wird nach dem 
Laden der Packages der Befehl theme_set (theme_bw () ) verwendet. Ein- 
zelne Elemente, wie die Formatierung der Legenden, lassen sich anschließend 
über den themes () -Befehl justieren. 


Der Code mit den zusätzlichen Parametern und Schichten zur Ausgestaltung des 
Streudiagramms (Abb. 5.9) könnte also wie folgt aussehen: 


2! Zur Darstellung schiefer Verteilungen siehe auch Newman 2005. 

? Achten Sie im Rahmen Ihrer wissenschaftlichen Arbeit stets darauf, Ihre Grafiken mit An- 
gaben zu versehen, die für die Einordnung und Interpretation notwendig sind, insbesondere 
die Anzahl der dargestellten Fälle (die Basis). 
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Verhältnis von Favorites zu Retweets 
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Abb. 5.9 Farbiges Streudiagramm mit ggplot2. Basis: 75 Fantasie-Tweets, nur zu Demons- 
trationszwecken geeignet. (Quelle: eigene Darstellung) 


ggplot (tweets, aes( 


y = favorites + 1, 
x = retweets + 1, 
color = from) 

) + 


# Position verschieben 
geom point (position = "jitter") + 
# Logarithmieren 

scale y_ logl0() + 

scale x logl0() + 


# Beschriftungen hinzuftigen 


labs ( 
y = "Anzahl Favorites + 1", 
x = "Anzahl Retweets + 1" 

) + 


ggtitle ("Verhältnis von Favorites zu Retweets") + 


# Thema setzen 


theme _bw (base size = 12) 
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In der Grafik lässt sich also die Tendenz erkennen, dass häufiger geteilte Tweets 
auch mehr Favorites erhalten, wobei einige Accounts wie unialdera stärker als an- 
dere von diesem Muster abweichen. Die Punkte am linken Rand deuten (unter 
Berücksichtigung der Logarithmierung) außerdem darauf hin, dass viele Tweets 
gar nicht retweetet wurden — und dennoch mal mehr und mal weniger Favorites 
erhalten. 

Wenn Sie Grafiken erstellen, erhalten Sie wahrscheinlich früher oder später 
Warnmeldungen. Die Meldung „removed 35 rows containing missing values 
(geom_point)“ ist etwa ein Hinweis darauf, dass der Datensatz fehlende Werte 
(NA) beinhaltet. Je nachdem, wofür ein NA in einer Zeile steht, können diese Werte 
vorher unterschiedlich behandelt werden. Mittels replace_na() können sie 
durch 0 ersetzt oder durch Filtern mit der Bedingung !is.na () entfernt werden. 
Auch wenn 0-Werte logarithmiert werden, erscheint eine Warnmeldung wie 
„Transformation introduced infinite values in continuous y-axis.” Wenngleich 
nicht jede Warnung problematisch sein muss, sollten Sie diese bei der Interpreta- 
tion der Grafiken berücksichtigen. 


Grafiken speichern Grafiken können als Bilddatei abgespeichert werden, zum 
Beispiel im PNG-Format. Das Abspeichern erfolgt über die Funktion 
ggsave ()- wobei standardmäßig immer die letzte Grafik im PLoTs-Reiter ab- 
gespeichert wird. Diese Funktion benötigt als Parameter zunächst den gewünsch- 
ten Dateinamen, optional können Hinweise zur Auflösung und zum Format mit- 
gegeben werden, etwa über die Parameter dpi (= dots per inch), width 
oder height: 


ggsave ( 
"streudiagram.png", 
dpi = 300, 
width = 10, 
height = 10, unit = "cm" 


Fiir manuelle Nacharbeiten empfiehlt sich alternativ das SVG-Format, das mit 
kostenlosen Programmen wie Inkscape” weiterbearbeitet werden kann. 


® Inkscape ist ein Programm zur Bearbeitung von Vektorgrafiken (Inkscape 2022; https:// 
inkscape.org/). 
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Übungsfragen 


1. Warum sollten Sie in R immer in einem Projekt arbeiten? 

2. Inwiefern unterscheiden sich die Arbeit mit einem Skript und das Arbei- 
ten in der Konsole? 

3. Wie lauten die Tastenkombinationen für den Zuweisungsoperator und für 
die Pipe? 

4. Was ist der Unterschied zwischen einer For-Schleife und einer vektorisier- 

ten Funktion? 

Wie können Sie Excel-Dateien in R einlesen? 

Was bedeutet der Ausdruck NA in R? 

Was ist ein Tibble und was ist das Tidyverse? 

Mit welchen Basis-R-Funktionen und mit welchen Funktionen aus dem 

Tidyverse können Sie Zeilen und Spalten auswählen? 

9. Wie zählen Sie in R in einem Datensatz die Anzahl der Fälle je Kate- 
gorie aus? 

10. Mit welchen Diagrammtypen können Sie anschaulich metrische Daten dar- 
stellen, mit welchen kategoriale Daten? 


oo So n 


Weiterfiihrende Literatur 

Durch die starke Community findet sich eine Vielzahl sehr guter Hilfestellungen 
rund um R im Web. Die zentrale Anlaufstelle ist The Comprehensive R Archive 
Network (CRAN 2022; https://cran.r-project.org). Dort werden auch die meisten 
Packages verwaltet. Die Dokumentation der Packages kann nicht nur über die Hil- 
fefunktion in RStudio, sondern etwa in der Form von PDF-Dateien auch über 
CRAN bezogen werden. Eine Einführung in die Basisfunktionen von R findet 
sich in: 


Philips, N. D. (2018). YaRrr! The Pirate’s Guide to R. https://bookdown.org/nd- 
phillips/YaRırr/. 


Eine umfassende Einführung in die Datenanalyse mit einem Fokus auf das Tidy- 
verse finden Sie in: 


Wickham, H. & Grolemund, G. (2017). R for Data Science. Sebastopol: O’Reilly. 
http://r4ds.had.co.nz. 
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Die genannten Bücher stehen unter einer Creative Commons-Lizenz, sind so- 
wohl kostenlos online verfügbar als auch in gedruckter Form im Buchhandel 
käuflich. 

Typische Lösungen für typische Probleme, aber auch eine übersichtliche Ein- 
führung, finden Sie bei Kabacoff (2017; https://www.statmethods.net). Spezielle 
Probleme werden häufig bei Stack Overflow (2022; https://stackoverflow.com) be- 
sprochen, hier können Sie auch selbst Fragen stellen. Gerade in der ersten Lern- 
phase einer Sprache sind Cheat Sheets hilfreich, auf denen die wichtigsten Funkti- 
onen knapp zusammengefasst sind. Eine Zusammenstellung solcher Blätter bietet 
die Webseite von RStudio (2022b; https://www.rstudio.com/resources/cheats- 
heets/). Darüber hinaus gibt es einige spezialisierte Bücher für die Analyse mit R, 
in den folgenden Kapiteln finden Sie dazu weitere Hinweise. 


5.2 Einführung in die Datenanalyse mit Python 


Python ist eine vergleichsweise leicht zu erlernende Programmiersprache. Die Ein- 
satzgebiete sind dennoch sehr breit. Python-Programme findet man zum Beispiel 
bei der Navigation von Flugzeugen, der Beleuchtung von Schiffen oder der Erstel- 
lung von Webseiten. Einige Spezialeffekte in Filmen wie Star Wars basieren auf 
Python-Programmen (Python Software Foundation 2019a). Auch die Namensge- 
ber kommen aus dem Filmbereich: Die Benennung geht auf das Komikerensemble 
Monty Python zurück (Python Software Foundation 2019b). 

In der wissenschaftlichen Datenanalyse sind die Einsatzgebiete ebenfalls breit 
gefächert. Python wird für die Datenerhebung zum Beispiel beim Webscraping 
genauso verwendet wie für die automatisierte Bilderkennung mit künstlichen neu- 
ronalen Netzwerken (KNN). Für viele Aufgaben stehen fertige Programmierbi- 
bliotheken zur Verfügung, sodass der Entwicklungsaufwand selbst bei komplexen 
Verfahren überschaubar ist. Bei der Entwicklung von Python-Skripten kommen in 
der Regel drei Komponenten zusammen: 


¢ Der Python-Interpreter, der die Python-Quelltexte abarbeitet, die Skripte also 
ausführt (Python Software Foundation 2022c). 

e Programmbibliotheken, die zusätzliche Funktionen bereitstellen, zum Bei- 
spiel pandas (Pandas development team 2022a) und numpy (Harris et al. 2020) 
für die Datenanalyse. Der Paketmanager pip hilft bei der Installation von zu- 
sätzlichen Programmbibliotheken (The pip developers 2022). 
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° Eine Entwicklungsumgebung wie JupyterLab (Jupyter 2022), Spyder (2022) 
oder PyCharm (Jetbrains 2022a). Diese sind sehr hilfreich, aber nicht zwingend 
notwendig. Skripte können auch mit einem einfachen Texteditor wie Atom (Git- 
Hub 2022a) oder Notepad++ (Ho 2022) entwickelt werden. 


Die folgenden Abschnitte führen nach und nach in diese Komponenten und erste 
Programmbefehle von Python ein. Es ist eher unwahrscheinlich, dass alles auf An- 
hieb gelingt. Die Fehlersuche gehört zum Programmieren dazu und ist eine we- 
sentliche Quelle der Erkenntnis. Oft hilft es, Fehlermeldungen wörtlich in eine 
Suchmaschine einzugeben. Hilfe finden Sie außerdem in Foren wie Stack Over- 
flow.” Diese Einführung wird kaum dafür ausreichen, dass Sie anschließend 
selbstständig Skripte entwickeln können. Das ist zu Beginn aber auch nicht nötig. 
Viel wichtiger ist, dass Sie vorhandene Skripte, die Sie zum Beispiel in Foren oder 
den anderen Kapiteln des Buchs finden, nachvollziehen und anpassen können. Su- 
chen Sie sich anschließend ein eigenes Projekt und versuchen Sie sich an der 
Umsetzung! 


5.2.1 Entwicklungsumgebung JupyterLab 


Als Entwicklungsumgebung für den Einstieg in Python bietet sich JupyterLab an. 
Das zentrale Konzept dieser Entwicklungsumgebung sind Notebooks. Ein Note- 
book ist eine Datei, in der sowohl der Programmcode als auch die Ergebnisse zu- 
sammengefasst sind. Zusätzlich lassen sich mit Markdown” erklärende Texte ver- 
fassen (Abb. 5.10). Das ist eine gute Kombination für die Datenanalyse, weil 
gleichzeitig die Ergebnisse und die einzelnen Schritte dokumentiert werden. Jupy- 
terLab enthält noch einige weitere nützliche Funktionen, insbesondere können Ter- 
minals (= Kommandozeilen) oder auch R-Skripte ausgeführt werden. Außerdem 
ist der Weg zum Cloud Computing ausgehend von Jupyter Notebooks nicht mehr 
weit, falls Sie an die Grenzen der Rechenkapazitäten Ihres Computers stoßen. 
Beim Cloud Computing werden die Python Skripte nicht auf dem eigenen Compu- 
ter ausgeführt, sondern auf der Server-Infrastruktur von Cloud-Dienstleistern 
(siehe Abschn. 6.3). 


?4 Siehe Stack Overflow (2022; https://stackoverflow.com). 


25 Markdown ist eine Sprache zur Formatierung von Texten (siehe Abschn. 3.2). Überschrif- 
ten werden zum Beispiel mit Rauten und Hervorhebungen mit Sternchen erzeugt. 
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Über das FILE-Menü oder den +-Button werden 
Notebooks angelegt und Terminals gestartet 


ee File Edit View Run Kernel Tabs Settings Help 


= B too Riten © [Essen x 


a + xXx 6 © >» m Œ » Code v % Python 3 (ip! O 
a 
o a / # Datensätze einlesen, erstellen und speichern 
= | Name = [1]: |# Datensatz Laden 
® 1_grundlagen.py import pandas as pd 
df = pd.read_csv("example-tweets.csv", sep=';') 


* ® 2_datenanalyse.py 
# Datensatz anzeigen 


EB example-tweets.csv 


M readme.md display(df) 
id from favorites replies retweete hashtags media 
0 1 eaduenergy 0 o NaN NaN 
1 2 eaduenergy 9 o 8.0 superlaser;turbolaser 
2 3 eaduenergy 6 o NaN NaN imag 
Die Dateien und 3 4 eaduenergy 5 o NaN NaN | 
Ordner im 4 5 eaduenergy 3 


Arbeitsverzeichnis 


Zellen mit 
1) Markdown für Notizen 


2) Python-Code 
3) Ergebnissen 


Abb. 5.10 Die Oberfläche von JupyterLab. (Quelle: eigene Darstellung) 


Python installieren Für die Installation von Python gibt es mehrere alternative 
Wege. Sie müssen nicht zwangsläufig jede der Komponenten — Python, Packages, 
Entwicklungsumgebung - einzeln installieren, sondern können auf sogenannte 
Distributionen zurückgreifen, die für das jeweilige Betriebssystem vorkonfektio- 
niert sind. Eine für Windows, macOS und Linux zugeschnittene Distribution ist 
Anaconda (2020). Alternativ bietet sich für Windows-Nutzer auch WinPython 
(2022) an. 


Beide Distributionen stellen Python in einem abgegrenzten Bereich zur Verfü- 
gung, sodass gleichzeitig auch mehrere Python-Versionen oder mehrere Distributi- 
onen auf dem gleichen Computer genutzt werden können. Wenn in mehreren Pro- 
jekten unterschiedliche Python- oder Package-Versionen verwendet werden sollen, 
lassen sich Projekte zudem voneinander über sogenannte virtuelle Umgebungen 
(engl. virtual environment, venv) abkapseln — ein Thema, das für Anfänger meist 
noch nicht von Bedeutung ist. Eine Einführung finden Sie in der Python- 
Dokumentation.” 


26 Siehe Python Software Foundation (2022d; https://docs.python.org/3/tutorial/venv.html). 
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Ein Nachteil solcher Zusammenstellungen ist jedoch, dass damit eine weitere 
Komponente ins Spiel kommt und somit eine weitere mögliche Fehlerquelle. Es 
mag kontraintuitiv erscheinen, gerade für den Einstieg kann aber die im Folgenden 
beschriebene Installation der einzelnen Komponenten dabei helfen, die verschiede- 
nen Teile und das Zusammenspiel nach und nach besser zu verstehen. 

In jedem Fall benötigen Sie Python. Laden Sie eine aktuelle Version von https:// 
www.python.org/downloads/ herunter. Es muss nicht die allerneueste Version sein, 
ältere Versionen sind in der Regel praxiserprobter. Wenn Sie bei der Installation auf 
Schwierigkeiten stoßen, versuchen Sie es mit einer anderen Version. Auf Mac- 
Computern und unter Linux besteht eine hohe Wahrscheinlichkeit, dass Python 
schon installiert ist. Trotzdem ist es ratsam, nicht mit dieser Systemversion zu ar- 
beiten und eine aktuelle Version zu installieren. Achten Sie unter Windows bei der 
Installation darauf, die Option ADD PYTHON To PATH zu aktivieren. Nur dann ist 
Python von jedem Ordner aus über die Kommandozeile nutzbar.” Die Erstinstalla- 
tion kann etwas umständlich sein, durch diese Prozedur müssen Sie aber nur ein- 
malig durchgehen. Wenn Sie Probleme mit der Installation haben, finden Sie online 
viele weitere Hinweise.” 

Erstellen Sie nach der Installation ein leeres Arbeitsverzeichnis auf Ihrem Com- 
puter und öffnen Sie dort eine Kommandozeile (siehe Abschn. 1.2.2). Geben Sie 
nun auf der Kommandozeile python ein (Abb. 5.11). Wenn die Installation ge- 
klappt hat, wird die Python-Version angezeigt und innerhalb der Kommandozeile 
wird eine neue Kommandozeile gestartet, die Python-Befehle ausführt.” Sie kön- 
nen das Terminal testweise wie einen Taschenrechner benutzen, geben Sie einmal 
eine Rechenaufgabe wie 4096 / 23 ein und bestätigen Sie mit der Entertaste. 
Verlassen Sie die Python-Kommandozeile schließlich wieder mit dem Befehl 
quit (), damit bleibt das Fenster geöffnet, aber Sie befinden sich anschließend 
wieder auf der Ausgangsebene. 


"Falls Sie diese Option verpassen, können Sie den Pfad selbst zur PATH-Variable hinzufü- 
gen. Dazu müssen Sie den Ordner kennen, in dem Python installiert wurde. Diesen Ordner 
legen Sie bei der Installation fest, alternativ können Sie auf Ihrem Computer nach „python. 
exe“ suchen. Fügen Sie den gefundenen Pfad (ohne python.exe) sowie den Unterordner 
Scripts zu den Umgebungsvariablen hinzu, über die Kommandozeile: SETX PATH 
"SPATH%; C:\Users\Nutzername\Python3; C:\Users\Nutzername\ 
Python3\Scripts". Die beiden hier angegebenen Pfade müssen Sie an Ihr System an- 
passen. Damit die Änderungen aktiv werden, schließen Sie anschließend die Kommando- 
zeile und öffnen sie neu. 

?8 Zum Beispiel bei Reitz (2021; https://docs.python-guide.org). 


Falls das nicht funktioniert, können Sie nach der Installation von Python 3 die Befehle 
python3 und später pip3 verwenden. 
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EI Eingabeaufforderung _ o x 


C:\Users\Jakob>python 

Python 3.7.2 (tags/v3.7.2:9a3ffc8492, Dec 23 2018, 23:09:28 
) [MSC v.1916 64 bit (AMD64)] on win32 

ype "help”, “copyright”, “credits” or “license” for more i 
nformation. 

>>> quit() 


C:\Users\Jakob>, 


Abb. 5.11 Python auf der Windows-Kommandozeile. (Quelle: eigene Darstellung) 
JupyterLab einrichten Für die Entwicklung von Skripten arbeiten Sie besser 
nicht direkt mit der Kommandozeile, sondern mit einer Entwicklungsumgebung 
wie JupyterLab. JupyterLab und alle weiteren Komponenten lassen sich aber gut 
von der Kommandozeile aus installieren: 


e Aktualisieren Sie zunächst den Paketmanager pip auf die neueste Version: 


python -m pip install --upgrade pip 


e Installieren Sie dann Jupyter und JubyterLab, beides benötigt eine Weile: 
pip install jupyter 
pip install jupyterlab 

e Installieren Sie gleich noch die folgenden häufig benötigten Packages: 
pip install numpy pandas scipy matplotlib 


Weitere Pakete können auch später noch mit dem Paketmanager pip instal- 
liert werden. 
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e Packages werden mit der Zeit weiterentwickelt, sodass neue Funktionen dazu- 
kommen oder alte abgeschafft werden. Welche Versionen Ihre Packages haben, 
können Sie über den Befehl pip list abfragen. Ist eine neuere Packagever- 
sion verfügbar und wollen Sie diese updaten, verwenden Sie den upgrade- 
Parameter: 


pip install --upgrade numpy 


e Starten Sie nun JupyterLab von der Kommandozeile. Achten Sie darauf, dass 
die Kommandozeile im Arbeitsverzeichnis (siehe Kap. 1) geöffnet ist: 


jupyter lab 


Es sollte sich der Browser öffnen und die Oberfläche von JupyterLab anzeigen 
(Abb. 5.10). Zum Beenden können Sie später das Browserfenster und die Konsole 
einfach wieder schließen. 

Nach dem Start ist eine Übersicht über die vorhandenen Dateien im Arbeits- 
verzeichnis, von dem aus JupyterLab gestartet wurde, zu sehen. Legen Sie über 
den Menüpunkt FILE ein neues Python-3-Notebook an. Geben Sie dem neuen 
Dokument einen Namen, indem Sie es beispielsweise über das Menü (FILE > 
RENAME NOTEBOOK) umbenennen. Das Notebook besteht aus einzelnen Zellen, 
die Programmcode oder Texte im Markdown-Format (siehe Abschn. 3.2) enthal- 
ten. Ganz oben finden Sie eine leere Code-Zelle. Wenn Sie in eine Code-Zelle 
etwas eingeben und über das Run-Menü oder den entsprechenden Button in der 
Toolbar (Abb. 5.12) den Code ausführen, dann wird darunter die Ausgabe darge- 
stellt. Zum Ausführen einer Zelle können Sie auch die Tastenkombination Strg + 
Enter (Windows) bzw. Command + Enter (Mac) verwenden. Über Shift + Enter 
wird ebenfalls eine Zelle ausgeführt und gleichzeitig springt der Fokus in die 
nächste Zelle — so können Sie sich schrittweise durch das vollständige Skript 
bewegen. 


[A] twitter_einlesen.ipynb x | Æ 2_datenanalyse.py x 
@+xX oO > m CG » Code v % Python 3 (ipykernel) © 
Neue Zelle Zelle ausführen Typ der Zelle ändern 


Abb. 5.12 Die Toolbar in Jupyter Notebooks. (Quelle: eigene Darstellung) 
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5.2.2 Die wichtigsten Programmbefehle 
im Schnelldurchlauf 


Werte und Listen Um sich mit Python vertraut zu machen, versuchen Sie die 
folgenden Beispiele in JupyterLab nachzuvollziehen. Geben Sie dafür Schritt für 
Schritt die Befehle in eine neue Zelle ein und führen Sie diese Zelle aus. Immer 
wichtig ist es, den eigenen Code zu kommentieren. Alle Angaben hinter einer 
Raute gelten als Kommentar und werden nicht ausgeführt: 


# Ich bin ein Kommentar 
Ein Skript besteht außerdem aus Befehlen, die nacheinander abgearbeitet wer- 
den. Ein Befehl hat einen Namen und nimmt Parameter” entgegen, die in Klam- 
mern angegeben werden. Der print () -Befehl gibt zum Beispiel Text aus, wobei 
Text immer in einfache oder doppelte Anführungszeichen gesetzt wird: 


print ("Hello world!") 


Das letzte Objekt in einer Zelle wird auch ohne print () -Befehl ausgegeben. 
Testen Sie eine einfache Rechenaufgabe: 


23 #71 
Werte können in Objekten abgespeichert werden, um sie anschließend in weiteren 
Befehlen nutzen zu können. Diese Objekte werden mit dem Ist-gleich-Zeichen = de- 
finiert, wobei der Name des Objektes davor und der Wert des Objektes dahinter steht: 
meinname = "Eliza" 
Mit dem Pluszeichen + können Zeichenketten verbunden werden. Beachten Sie 
im folgenden Beispiel, dass einerseits eine Zeichenkette in Anführungszeichen und 
andererseits das soeben definierte Objekt verwendet werden. Das Objekt ist hier 


ein Platzhalter für den vorher abgelegten Wert: 


print ("Mein Name ist " + meinname) 


30 Parameter werden auch Argumente genannt. 
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Eine Liste wird in eckigen Klammern angegeben, wobei die Elemente mit 
Kommata getrennt werden: 


eigenschaften = ["schön", "reich", "intelligent"] 


Auf die Elemente von Listen kann mit Indizes zugegriffen werden. Indizes ge- 
ben an, an der wievielten Stelle in der Liste sich das gesuchte Element befindet. 
Dafür wird die Nummer eines Elements in eckigen Klammern angegeben. Die 
Zählung beginnt — ein Unterschied zu R - in Python mit 0: 


print (eigenschaften[0]) 


Bislang haben Sie Zeichenketten aneinandergehängt und Zahlen addiert. Wei- 
tere Funktionen können Sie aus Programmbibliotheken nachladen. Dazu dient der 
import-Befehl. Mit der Bibliothek re können Sie zum Beispiel reguläre Ausdrü- 
cke verwenden (siehe Abschn. 4.1.1).*! Der Befehl re.sub () ersetzt ein Such- 
muster (erster Parameter, hier alle Vokale) durch etwas anderes (zweiter Parameter, 
hier ein Unterstrich) innerhalb einer Zeichenkette (dritter Parameter, hier die Zei- 
chenkette „schön‘‘): 


import re 
ohnevokale = re.sub ("[aoueiöäü]", "_", "schön") 


Benutzen Sie den print () -Befehl, um sich das Ergebnis anzuschauen. 

Bei der Arbeit mit Python spielen Leerzeichen eine besondere Rolle. Die Struk- 
tur des Quelltextes wird durch Einrückungen mit immer vier Leerzeichen gekenn- 
zeichnet. Mitunter drohen Zeilen dadurch sehr lang zu werden — man kann Code 
allerdings nicht beliebig auf neue Zeilen umbrechen, sondern muss sich an Kon- 
ventionen halten. Um Code dennoch auf einer neuen Zeile fortsetzen zu können, 
wird der Backslash \ an das Ende einer vorangegangenen Zeile gesetzt — wir ma- 
chen davon bei einigen der folgenden Beispiele Gebrauch. 


Kontrollstrukturen und Funktionen Mit Kontrollstrukturen sind Sprachele- 
mente gemeint, die den Ablauf eines Programms steuern. Um Befehle mehrfach 
auszuführen, werden Schleifen (engl. loops) eingesetzt. Eine besonders praktische 


3! In der Regel setzt man alle import-Anweisungen an den Anfang eines Skripts, sodass die 
benötigten Bibliotheken (= Abhängigkeiten) schnell erkennbar sind. 
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Schleife ist in Python die For-in-Schleife, die den folgenden Codeblock für jedes 
Element einer Liste einmal durchläuft. Die Syntax lautet: 


for <element> in <liste>: 
# Weiterer Code, der mit 
# <element> arbeitet 


Wichtig ist ein Doppelpunkt am Ende und dass die nächsten Zeilen eingerückt 
werden. Durch die Einrückung mit vier Leerzeichen werden zusammenhängende 
Codeblöcke erstellt. Das kann in JupyterLab mit der Tabulatortaste erreicht wer- 
den; der Editor ersetzt den Tabulator automatisch durch vier Leerzeichen: 


for x in eigenschaften: 
satz = meinname + " ist "+ x 
print (satz) 


Es steht dabei frei, wie das Element benannt wird. Statt „x“ Könnte auch „eigen- 
schaft“ oder „item“ eingesetzt werden. Unter diesem Namen ist das Element inner- 
halb des eingerückten Codeblocks verfügbar. Der Name ist also beliebig, muss 
dann aber beibehalten werden. 

Eine weitere Möglichkeit, um Funktionen auf Listen anzuwenden, sind List 
Comprehensions. Während die Verwendung einer For-in-Schleife ganz im Sinne 
imperativer Programmierung die einzelnen Schritte auflistet, sind List Comprehen- 
sions eine Variante funktionaler Programmierung: 


saetze = ["Eliza ist " + x for x in eigenschaften] 


In diesem Beispiel wird ausgehend von der Liste eigenschaften eine neue 
Liste saetze erstellt. Vor jedes Element x (der Name ist wiederum frei gewählt) 
der ursprünglichen Liste wird die Zeichenkette "Eliza ist " gestellt. Der Befehl 
wird ebenfalls für alle Elemente aus der Liste eigenschaften nacheinander 
ausgeführt, eine solche Schreibweise ist aber kürzer als eine Schleife. Selbst wenn 
dieses Muster zu Beginn schwer zu verstehen ist, nach etwas Übung wird die Ent- 
wicklung durch die kompakte Schreibweise sehr erleichtert. 

Sie können das Ergebnis über den print () -Befehl ausgeben oder das Objekt 
saetze einfach in die letzte Zeile der Zelle setzen und die Zelle ausführen. Das 
letzte innerhalb einer Zelle erzeugte Objekt wird immer als Ergebnis ausgegeben. 

Eine weitere wichtige Kontrollstruktur sind Bedingungen. Mit der If-Bedingung 
wird der Ablauf verzweigt, sodass ein Teil des Skripts nur unter der angegebenen 
Bedingung ausgeführt wird. Das lässt sich mit Schleifen kombinieren: 
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for x in eigenschaften: 
if x != "schön": 
print ("Eliza ist " + x) 


Mit dem Operator != werden die nach dem Doppelpunkt angegebenen, einge- 
rückten Teile nur ausgeführt, wenn linke und rechte Seite der Bedingung nicht 
übereinstimmen. Sollen sie übereinstimmen, wird der Gleichheitsoperator == 
verwendet. Das Muster kann durch weitere Elif-Bedingungen ergänzt werden, wo- 
bei die späteren Blöcke nur ausgeführt werden, wenn nicht vorher schon eine Be- 
dingung erfüllt war. Ein Else-Block am Ende wird immer ausgeführt, wenn unter- 
wegs nichts anderes zugetroffen hat: 


for x in eigenschaften: 


if x == "schön": 

print ("Eliza war " + x) 
elif x == "reich": 

print ("Eliza wird " + x + " sein") 
else: 

print ("Eliza ist " + x) 


Immer wenn Code mehrfach verwendet wird, sollte man eigene Funktionen 
definieren, damit die Skripte kürzer und übersichtlicher werden. Außerdem lassen 
sich Funktionen bei Bedarf leichter anpassen und austauschen, als wenn viele Stel- 
len in einem Skript einzeln geändert werden müssten. Dieses Prinzip wird dry (= 
don’t repeat yourself) genannt. In Python definieren Sie Funktionen mit dem 
Schlüsselwort def, gefolgt vom Namen der Funktion. Mögliche Parameter, die in 
der Funktion verarbeitet werden, sind in runden Klammern angegeben: 


def superduper (eigenschaft): 
x = "sehr " + eigenschaft 
return (x) 


Wie schon bei Schleifen kann der Parameter eigenschaft beliebig benannt 
werden, das Objekt steht innerhalb der Funktion unter diesem Namen zur Verfü- 
gung. Der Inhalt der Funktion, das heißt die einzelnen Befehle, werden wieder 
eingerückt. Am Ende der Funktion wird das Ergebnis über das Schlüsselwort 
return zurückgegeben. Eine Funktion nimmt also Parameter entgegen (Input), 
verarbeitet sie in einzelnen Schritten (Throughput) und gibt das Ergebnis zurück 
(Output). Diese Funktion kann anschließend beispielsweise innerhalb einer 
Schleife eingesetzt werden: 
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for y in eigenschaften: 
print ("Eliza ist " + superduper (y)) 


Beachten Sie hier zwei Dinge. Erstens können Funktionsaufrufe verschachtelt 
werden. Der print () -Aufruf nimmt den zusammengesetzten Wert "Eliza ist 
" + superduper (y) entgegen und darin wird die Funktion mit dem Namen 
superduper () aufgerufen. Zweitens müssen die Namen der übergebenen Ob- 
jekte (hier y) nicht mit den Namen der Parameter aus der zuvor definierten Funktion 
(hier: eigenschaft) übereinstimmen. Es handelt sich im Beispiel bei y und 
eigenschaft um Platzhalter, die immer nur innerhalb der Funktion oder der 
Schleife gültig sind, das heißt, innerhalb der Funktion oder der Schleife werden dann 
alle diese Platzhalter durch die übergebenen Werte ersetzt. Die Parameternamen kön- 
nen aber beim Funktionsaufruf explizit angegeben werden, um für Klarheit zu sorgen: 


for x in eigenschaften: 
print ("Eliza ist " + superduper (eigenschaft=x) ) 


Wenn Skripte komplexer werden, helfen Funktionen dabei, die Übersicht zu 
behalten. Gleichzeitig nimmt bei umfangreichen Skripten die Wahrscheinlichkeit 
für Fehler zu. Deshalb ist es wichtig, Fehler von vornherein abzufangen. Hierzu 
dienen Try-except-Blöcke. Tritt innerhalb des Try-Blocks ein Fehler auf, dann wird 
direkt nach dem Fehler der Except-Block ausgeführt. Ein Finally-Block wird dage- 
gen immer ausgeführt, egal ob ein Fehler aufgetreten ist oder nicht: 


eigenschaften = ["schön","reich",0,"intelligent"] 


for x in eigenschaften: 


try: 

x = "Eliza ist "+ x 
except: 

x = "Eliza ist irgendwie anders" 
finally: 

print (x) 


Das Beispiel wirft (engl. raise) deshalb einen Fehler aus, weil in einem Durch- 
lauf der Schleife die Zeichenkette „Eliza ist “ mit der Zahl O addiert werden soll. 
Eine Addition von Zeichen und Zahlen kann vom Programm nicht sinnvoll inter- 
pretiert werden, da hier die Datentypen vermischt werden. Deshalb entsteht ein 
TypeError. Ein solcher Fehler entsteht immer, wenn der eingegebene Datentyp (in 
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dem Beispiel eine Zahl) nicht dem erwarteten Datentyp (im Beispiel eine Zeichen- 
kette) entspricht. Es könnte aber versucht werden, genau diese TypeError-Fehler 
abzufangen (engl. catch) und die Zahl mit der str () -Funktion in eine Zeichen- 
kette umzuwandeln: 


for x in eigenschaften: 
try: 


x = "Eliza ist "+ x 
except TypeError: 


x = "Eliza ist eine " + str (x) 
print (x) 


Es ist durchaus ein guter Programmierstil, bewusst mit Fehlern zu arbeiten. 
Statt mit If-Kontrollstrukturen alle möglichen Bedingungen abzudecken, lässt man 
Programme gezielt in Fehler hineinlaufen, die dann behandelt werden.*” 


Dictionaries und Objekte Nicht nur die Skripte werden nach und nach komple- 
xer, sondern auch die damit verarbeiteten Objekte. Neben einfachen Datentypen 
wie Zahlen oder Zeichenketten ist Ihnen oben bereits ein zusammengesetzter Da- 
tentyp begegnet, die Liste.” In Listen lassen sich mehrere Elemente ablegen, um 
sie nacheinander abzuarbeiten, etwa um mehrere Wörter miteinander zu verbinden. 
Welchen Sinn die einzelnen Wörter haben, geht aus einer Liste allerdings nicht 
hervor. Stellen Sie sich vor, eine Person soll durch unterschiedliche Eigenschaften 
beschrieben werden, das Alter, den Namen und den kognitiven Zustand. In Dictio- 
naries (auch kurz Dicts genannt) können Sie diese verschiedenen Eigenschaften 
mit Name-Wert-Paaren erfassen. Dicts werden im Gegensatz zu Listen nicht mit 
eckigen, sondern mit geschweiften Klammern definiert: 


ich = {'name': meinname, 'zustand': 'verwirrt'} 


Beachten Sie, dass hier ein Wert wiederum als Objekt (neinname) angegeben 
werden kann. Dieses Objekt müsste vorher definiert oder durch eine Zeichenkette 
ersetzt werden. Auf die Werte der Elemente kann dann mit dem Namen zugegrif- 
fen werden: 


32 Weitere Ausführungen zu Fehlerbehandlungen finden Sie bei W3Schools (2022c; https:// 
www.w3schools.com/python/python_try_except.asp). 


33 Siehe Abschn. 3.1 für eine Einführung in grundlegende Datentypen. 
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print (ich['name'] + " ist " + ich['zustand']) 


Dicts enthalten lediglich Daten, das heißt Eigenschaften von den betrachteten 
Objekten. Bei der objektorientierten Programmierung kombiniert man dagegen Ei- 
genschaften und Methoden in einem Objekt. Auch wenn es eine Weile braucht, um 
dieses Konzept zu begreifen, soll zumindest kurz auf die Grundlagen eingegangen 
werden.* In der objektorientierten Programmierung werden zunächst Klassen de- 
finiert, das sind eine Art selbstausgedachte Datentypen: 


class Jedi: 
name = None 
staerke = 0 


def init (self, name): 
self.name = name 
self.staerke = 10 


def talk(self): 
print (self.name + " mein Name ist.") 


if self.staerke < 5: 
print ("Mich schwach ich fühle.") 


Das Beispiel erzeugt eine Jedi-Klasse mit den zwei Eigenschaften name und 
staerke, die mit leeren Werten vorbelegt werden. Hinzu kommen zwei Metho- 
den — so nennt man die Funktionen einer Klasse oder eines Objekts. Die Methode 
__init__ wird aufgerufen, sobald ein neues Objekt von dieser Klasse erzeugt 
wird, das heißt sobald die Klasse instanziiert wird. Die folgenden Beispiele erzeu- 
gen zwei voneinander unabhängige Instanzen und speichern sie in den Objekten 
j1 und j2 ab. 


j1 = Jedi ("Yoda") 
J2 Jedi ("Rey") 


Das Erzeugen von Instanzen aus einer Klasse sieht also ganz ähnlich aus wie 
ein Funktionsaufruf und es verhält sich auch so. Der Parameter hinter dem Klas- 


% Eine allgemeine Einführung finden Sie bei W3Schools (2022b; https://www.w3schools. 
com/python/python_classes.asp). 
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sennamen wird direkt an de init __ () -Funktion übergeben und dort für die 
Einrichtung des Objekts verwendet. 

Das konkrete aus der Klasse hervorgehende Objekt wird dann Instanz dieser 
Klasse genannt. Innerhalb der Methoden einer Klasse steht der Parameter self 
für genau diese eine konkrete Instanz der Klasse. Auf Eigenschaften und Methoden 
der Instanz kann zugegriffen werden, indem der Name mit einem Punkt angehängt 
wird, zum Beispiel innerhalb der Klassenmethoden mit self.staerke. Auf 
diese Weise können aber auch außerhalb der Klassendefinition Werte verän- 
dert werden: 


jl.staerke = 2 


Wenn Sie nun die Funktion der beiden Instanzen aufrufen, verhalten sich beide 
unterschiedlich, da sie einen unterschiedlichen Zustandhaben-indertalk () -Me- 
thode wird self verwendet und der Zustand wurde vorher nur in einer der Instan- 
zen verändert: 


j1.talk() 
j2.talk() 


Die talk () -Funktion hat nur diesen einen Parameter self, der aber beim 
Aufrufen nicht angegeben wird, da hier automatisch immer die Instanz vorbelegt 
wird. Mit Klassen lassen sich genauso wie mit Funktionen komplexe Vorgänge 
abkapseln. Dabei muss man sich mit der inneren Funktionsweise einer Klasse 
nicht unbedingt auskennen, solange man weiß, wofür und wie man die Klasse 
verwendet. 

Klassen erlauben es also, Dinge zu erzeugen, die Eigenschaften und Methoden 
aufweisen. Solche Dinge, die über Methoden verfügen, nennt man Objekte. Fast 
alle Dinge in Python sind Objekte und verfügen über Methoden. Das gilt zum 
Beispiel auch für Zeichenketten, wie sie in vielen der bisherigen Beispiele vorka- 
men. Zeichenketten verfügen über viele nützliche Methoden. Schlagen Sie in der 
Python-Dokumentation* nach und probieren Sie einige aus! Das folgende (viel- 
leicht nicht ganz sinnvolle) Beispiel kettet solche Methodenaufrufe hintereinander: 


"Yoda".lower().replace("y", "J").capitalize() 


35 Siehe Python Software Foundation (2022b; https://docs.python.org/3/library/stdtypes.htm- 
l#text-sequence-type-str). 
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Zusammenfassend kann man sagen, dass in einem Skript vier verschiedene Zu- 
taten verarbeitet werden: 


« Einfache Werte wie Zahlen (12), Zeichenketten ("Eliza") oder Wahrheits- 
werte (True, False) sowie zusammengesetzte Werte wie Listen, Dictionaries 
oder Objekte. Eigene Objekte mit komplexen Datentypen können über Klassen 
erzeugt werden. 

¢ Funktionen und Methoden, mit denen Werte verarbeitet werden. Es lassen 
sich eigene Funktionen definieren oder Funktionen aus Bibliotheken im- 
portieren. 

e Kontrollstrukturen, um den Ablauf eines Programms bzw. den Aufruf von 
Funktionen zu steuern. Dazu gehören For-in-Schleifen und If-else-Verzweigungen, 
zur Fehlerbehandlung können Try-except-Blöcke eingesetzt werden. 

e Kommentare zur Dokumentation des Codes. 


Diese typischen Zutaten werden immer wieder neu zusammengesetzt, wodurch das 
Programmieren nicht nur ein formaler, sondern auch ein sehr kreativer Prozess ist. 


5.2.3 Datenanalyse mit Pandas 


Neben den Standardfunktionen von Python kommen für die Datenanalyse in der 
Regel spezialisierte Programmbibliotheken zum Einsatz. Bibliotheken werden 
über den import-Befehl eingebunden. Sie enthalten Funktionen und Objekte, die 
die Arbeit deutlich erleichtern. Falls eine Bibliothek nicht auf dem System zur 
Verfügung steht, kann sie meistens über den Paketmanager pip nachinstalliert wer- 
den. Zu den wichtigsten Bibliotheken gehören: 


e numpy (Harris et al. 2020) enthält Funktionen zum Umgang mit Zahlen und 
Matrizen. Das wichtigste Objekt in dieser Bibliothek sind mehrdimensionale 
Arrays vom Datentyp ndarray. Ein eindimensionales Array ist eine Liste, 
deren Elemente alle den gleichen Datentyp haben, meistens Zahlen. Erstellt 
man eine Liste, die andere Listen enthält (engl. list of lists), entsteht ein zweidi- 
mensionales Array. Zweidimensionale Arrays werden Matrizen (engl. matrices) 
genannt und die Dimensionen werden als Achsen (engl. axes) bezeichnet. 

e pandas (Pandas development team 2022a) stellt den Typ DataF rame und dazu- 
gehörige Funktionen bereit, mit denen tabellenförmige Daten verarbeitet wer- 
den können. Die einzelnen Spalten weisen den Datentyp Series auf und wer- 
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den wie Listen behandelt. Die Datentypen von pandas sind mit den Datentypen 
von numpy kompatibel, enthalten aber weitergehende Funktionen für die Da- 
tenanalyse. 

e matplotlib (Hunter et al. 2022) ist eine Bibliothek zum Erstellen von Grafiken. 

e sklearn (= Scikit-learn; Pedregosa et al. 2011) wird für statistische Auswer- 
tungen verwendet, insbesondere für das maschinelle Lernen (siehe Ab- 
schn. 8.1). Hier sind Verfahren zur Regression, Klassifikation und zum Clus- 
tering implementiert, zum Beispiel für die Verwendung künstlicher neuronaler 
Netzwerke. 


Jede dieser Bibliotheken eröffnet eine eigene kleine Welt mit vielen interessanten 
und nützlichen Ideen und Tools, aber auch eigenen Sprachen. Wenn Sie anfangen 
diese Sprachen zu lernen, schauen Sie ab und an in den Wörterbüchern — das heißt 
in den Dokumentationen — nach. Für die folgenden Schritte kann es sich lohnen, 
parallel die Dokumentationen von pandas und numpy zu öffnen, zu finden über 
eine Suchmaschine mit den Stichwörtern „reference“ oder auch „API reference“. 
Unten finden Sie weitere Hinweise, wie die Hilfe zu einzelnen Funktionen direkt 
aus JupyterLab geöffnet werden kann. 


Datensätze einlesen und speichern Zu den Grundlagen der Datenanalyse gehört 
der Umgang mit den Dataframes der pandas-Bibliothek. Ein Dataframe folgt den 
Konventionen für Tabellen (Abschn. 4.2) und besteht aus nebeneinander angeord- 
neten Spalten und untereinander angeordneten Zeilen (Abb. 5.13). An den Kreu- 
zungen zwischen Spalten und Zeilen stehen die Werte. Nicht nur Spalten, sondern 
auch Zeilen können benannt sein. Normalerweise werden Zeilen einfach mithilfe 
von Nummern referenziert. Es können aber auch andere Namen (engl. label) ver- 
geben werden. Diese Bezeichnungen heißen in pandas Index und sind für viele 
Operationen wichtig, etwa für das Sortieren oder das Zusammenfügen von 
Datensätzen. 


Damit der Tippaufwand beim Benutzen von pandas reduziert wird und gleich- 
zeitig erkennbar bleibt, aus welcher Bibliothek eine Funktion kommt, importiert 
man pandas häufig mit dem Alias pd: 


import pandas as pd 


Die pandas-Befehle sind anschließend immer am Präfix pd zu erkennen. Da- 
tensätze können darüber unter anderem im CSV-Format eingelesen werden. Im 
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Index (axis=0) mit Zeilenbeschriftungen (Label) Spalten (axis=1) 


from favorites replies retweets hashtags media 
1 eaduenergy 0 0 NaN NaN text 
2 eaduenergy 9 0 8.0 superlaser;turbolaser text 
3 eaduenergy 6 0 NaN NaN image 


4 eaduenergy 5 0 NaN link 
5 eaduenergy 3 1 NaN link 
6 eaduenergy 0 1.0 ternzerstörer;werft text 


7 eaduenergy 


Abb. 5.13 Die Komponenten eines pandas-Dataframes. (Quelle: eigene Darstellung) 


todesstern image 


NaN (not a number) kennzeichnet fehlende Werte 


Beispiel wird der Datensatz example-tweets.csv eingelesen und die Daten werden 
im Objekt df abgelegt (® Repositorium): 


df = pd.read_csv("example-tweets.csv", sep=";") 


Weitere Optionen zum Anpassen der Funktion finden Sie in der Dokumentation 
der Packages. Sie können die Hilfe zu einem Befehl auch direkt aus dem Skript 
aufrufen, dazu wird an den Befehl ein Fragezeichen angehängt: 


pd.read_csv? 


Eine weitere Möglichkeit, die Optionen zu erkunden, bietet die Autovervoll- 
ständigung in JupyterLab. Wenn Sie anfangen den Befehl einzutippen und dann 
nach dem Punkt die Tabulatortaste drücken, wird zunächst eine Auswahl an Funk- 
tionen aus dem Package angeboten. Sobald die Funktion ausgewählt oder ausge- 
schrieben ist, zeigt Shift + Tabulator die Signatur der Funktion an. Mit einer Funk- 
tionssignatur ist gemeint, wie genau die Funktion definiert ist und welche 
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Parameter sie unterstützt. Dazu werden direkt die Erläuterungen aus der Dokumen- 
tation angezeigt. Bevor Sie den nächsten Absatz lesen, versuchen Sie herauszufin- 
den, wozu der Parameter sep verwendet wird. 

Da die Werte in der CSV-Datei mit einem Semikolon ; getrennt sind, muss 
dieses als sogenannter Separator über sep='; ' angegeben werden. Läge die Da- 
tei im Excel-Format vor, könnte sie über den folgenden Befehl in Python gela- 
den werden: 


df = pd.read excel (dateiname) 


Hierbei müsste das Objekt dateiname vorher natürlich definiert oder durch 
eine Zeichenkette ersetzt werden. Die Pfadangaben beziehen sich immer auf das 
aktuelle Arbeitsverzeichnis, das ist dasjenige Verzeichnis, in dem das Python-Skript 
ausgeführt wird.” 

Um das Objekt df anzeigen und damit die eingelesenen Daten betrachten zu 
können, nutzen Sie den Befehl: 


display (df) 


Die resultierenden Dataframes sind Objekte mit eigenen Funktionen, die nach 
Angabe eines Punktes aufgerufen werden können. Auf diese Weise lassen sich Da- 
tensätze auch wieder als CSV- oder Excel-Datei abspeichern: 


df.to_csv(dateiname, index=False) 
df.to_excel (dateiname, index=False) 


Der Parameter index=False sorgt dafür, dass nur die Spalten abgespeichert 
werden und nicht auch die Namen der Zeilen (siehe oben). 

Statt Daten einzulesen lassen sich leere Dataframes erstellen, die dann im Ver- 
lauf eines Skripts mit Daten gefüllt werden. Es empfiehlt sich dabei, zunächst ein 
Dict { } je Datensatz anzulegen, die Dicts in eine Liste [ ] zu legen und diese 
Liste in einen Dataframe umzuwandeln. Der bestehende und der neue Dataframe 
werden dann zusammengefügt: 


36Das Arbeitsverzeichnis lässt sich nach import os mit der Funktion os.getcwd () 
ausgeben und mitos.chdir () ändern. 
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data = pd.DataFrame () 


data_new = pd.DataFrame ([ 
{'tid':1,'name':'rey'}, 
{'id':2,'name':'han'} 
ap) 


data = pd.concat ( 
[data, data_new], 
sort=False, 
ignore index=True 


Wird das neu erstellte Objekt nicht mehr benötigt, wird es über den Befehl del 
data_new wieder entfernt. 


Spalten und Zeilen filtern Für die Datenanalyse sind neben dem Einlesen und 
Speichern drei Verfahren besonders wichtig: die Auswahl von Daten, das Berech- 
nen neuer Daten und das Aggregieren von Daten. Im ersten Schritt werden Daten 
auf die konkreten Bedürfnisse zugeschnitten. Indem Spalten und Zeilen ausge- 
wählt werden, entstehen Teildatensätze. Im Englischen findet man dafür häufig die 
Begriffe subsetting, indexing und slicing. 


Sowohl Spalten als auch Zeilen können entweder über ihre Position oder über 
ihre Namen angesprochen werden.” Die Funktion loc [] dient zum Auswählen 
über die Namen. Der erste Parameter gibt die Zeilen an, der auf das Komma 
folgende Parameter bestimmt die Spalten. Beachten Sie, dass hier ausnahmsweise 
eckige Klammern und keine runden Klammern verwendet werden:** 


df.loc[zeilen, spalten] 


37Eine umfassendere Einführung finden Sie bei Petrou (2017; https://medium.com/dun- 
der-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c). 

*8Ein Dataframe enthält die sogenannten magischen Methoden setitem _und  ge- 
titem _,aufdiese werden die eckigen Klammern umgelenkt. Magische Methoden verein- 
fachen die Arbeit mit Objekten. 
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An die Stelle der Zeilen- und Spaltenparameter können verschiedene Vari- 
anten treten. Wird einer der Parameter nicht verwendet, setzt man einen Dop- 
pelpunkt ein, um darüber alle Zeilen oder Spalten auszuwählen (® Reposi- 
torium): 


° Ein einzelner Name einer Spalte wird in einfache Anführungszeichen gesetzt: 
df.loc[:, 'replies'] 

e Mehrere Namen werden zur Auswahl in einer Liste angegeben: 
df.loc[:, ['replies', 'favorites']] 


e Ein Bereich von Spalten wird angegeben, indem der Startpunkt vor und der 
Endpunkt nach einem Doppelpunkt angegeben werden: 


df.loc[:, 'favorites':'retweets'] 


Startpunkt und Endpunkt vor bzw. nach dem Doppelpunkt können wegfallen, um ei- 
nen Bereich von Anfang an oder bis an das Ende zu benennen (z.B. 'favorites': 
oder : ' retweets '). Für den Zugriff auf die Spalten, wenn ohnehin alle Zeilen er- 
halten bleiben sollen, kann zudem die loc[]-Funktion ausgelassen werden: 
df[spalten]. Anstelle der Spaltenauswahl können wieder die genannten Optio- 
nen treten, das heißt einzelne Spalten, eine Liste mit Spalten oder ein Bereich. Soll nur 
eine einzelne Spalte ausgewählt werden, kann auf die Dot-Notation zurückgegriffen 
werden, da Spalten Eigenschaften eines Dataframes sind (z. B. df . favorites). 
Probieren Sie die verschiedenen Varianten einmal aus! 

Etwas verwirrend ist zunächst, dass die Auswahl von Spalten über die 
loc[]-Funktion mal einen Dataframe und mal ein Series-Objekt zurückgibt. 
Wenn die Spalten in eckigen Klammern (also als Liste) angegeben werden, ent- 
steht ein Dataframe, andernfalls eine Series. Sie können mit dem type () -Befehl 
überprüfen, in welcher Form das Ergebnis vorliegt: 


x = df.loc[:, ['favorites']] 
type (x) 


x = df.loc[:, 'favorites'] 
type (x) 
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Ganz allgemein ist die Typüberprüfung hilfreich, wenn etwas nicht wie ge- 
wünscht funktioniert. Der Unterschied zwischen Dataframes und Series wird spä- 
ter wichtig, wenn mit den Daten weitergearbeitet wird, denn beide Typen erlauben 
unterschiedliche Operationen. Achten Sie bei allen besprochenen Funktionen auf 
die eckigen Klammern — mit runden Klammern gibt es eine Fehlermeldung. Und 
überlegen Sie stets, welchen Typ das Ergebnis haben müsste — Series oder 
Dataframe. 


Damit nicht nur die Spalten, sondern auch Zeilen mit der loc [ ] -Function über 
Namen ausgewählt werden können, müssen die Zeilen zunächst Bezeichnun- 
gen erhalten. Dazu wird der Zeilenindex angepasst. Es können bestehende Spalten 
als Index und damit als Quelle der Zeilenbezeichnungen genutzt werden, zum Bei- 
spiel die Spalte £rom: 


df = df.set_index(['from']) 

Nach der Indexierung der Spalte from, können Inhalte aus dieser Spalte in 
Anführungszeichen gesetzt und als erster Parameter in die 1oc [ ] -Funktion gege- 
ben werden. Zurückgegeben wird im Beispiel ein neuer Dataframe, der alle Zeilen 
mit dem Wert „theeduni“ in der zuvor indexierten Spalte £rom enthält: 

df.loc['theeduni'] 

Eine Angabe von Spalten als zweitem Parameter ist nur erforderlich, wenn nicht 
alle Spalten zurückgegeben werden sollen. In folgendem Beispiel werden die Zei- 
len mit den indizierten Namen „theeduni“ und „unialdera“ ausgewählt, gleichzeitig 
wird auf die Spalte favorites eingegrenzt: 


df.loc[['theeduni', 'unialdera'], ['favorites']] 


Der Index kann jederzeit zurückgesetzt werden, wobei bestehende Daten in 
Spalten überführt und alle Zeilen neu nummeriert werden: 


df = df.reset_index () 


Will man ohne die Bezeichnungen der Spalten und Zeilen arbeiten, Kann mit der 
iloc[]-Funktion (i = integer) die Auswahl über die Position von Spalten und 
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Tab. 5.7 Bedingungen zum Filtern von Datensätzen 


Bedingung Erläuterung 

df.favorites > 10 Wert größer als 10 

df.favorites == 10 Wert gleich 10 

df.favorites != 10 Wert ungleich 10 

df.favorites <= 10 Wert kleinergleich 10 
df.favorites.isin([5,10]) Wert 5 oder 10 
~df.favorites.isin([5,10]) Wert nicht 5 oder 10 
df.favorites.notnull() Wert nicht leer (kein NaN) 
df.hashtags.str. Wert enthält „tierwelt“, für leere Werte 
contains ("tierwelt", na=False) |wird False ausgegeben (na-Parameter) 


Quelle: Eigene Darstellung 


Zeilen erreicht werden. Das folgende Beispiel wählt die ersten fünf Zeilen und alle 
Spalten nach der zweiten Spalte aus:*° 


a£.iloc[:5, 2:] 


Zeilen mit Bedingungen filtern Häufig müssen Daten nicht nur aufgrund der 
Spalten- und Zeilennamen ausgewählt, sondern auf Grundlage der Werte gefiltert 
werden. Dazu formuliert man eine Bedingung und setzt diese in eckige Klammern 
(siehe Tab. 5.7). So könnte es interessant sein, nur Fälle mit mehr als zehn Favorites 
auszuwählen, das heißt Fälle mit einem Wert größer als 10 in der entsprechen- 
den Spalte: 


df[df.favorites > 10] 

Mehrere Bedingungen können durch & (und) sowie | (oder) kombiniert werden: 
df[(df.favorites > 10) & (df.retweets > 5)] 

In allen Fällen gilt, dass der bestehende Dataframe nicht verändert wird, son- 


dern ein neues Objekt erzeugt wird. Will man damit weiterarbeiten, muss das Er- 
gebnis der Auswahlfunktionen im bestehenden oder einem neuen Objekt abgespei- 


®Die Zählung von Zeilen und Spalten beginnt bei 0. Da die zweite Angabe im Bereich :5 
nicht inklusiv ist, werden dennoch die ersten fünf und nicht sechs Zeilen ausgewählt. 
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chert werden. Das folgende Beispiel überschreibt das Objekt df, sodass nur noch 
die ausgewählten Zeilen übrigbleiben: 


df = df[df.favorites > 10] 


Der Punkt wird in Python immer verwendet, um auf Eigenschaften und Metho- 
den von Objekten zuzugreifen. Die Spalten verfügen über eine Auswahl an daten- 
typspezifischen Zugriffsmöglichkeiten (siehe unten, dtype specific accessors). Das 
vereinfacht zum Beispiel die Arbeit mit Textwerten. Textspalten stellen über die 
Eigenschaft str unter anderem Funktionen zum Suchen und Ersetzen oder zur 
Umformung zwischen Groß- und Kleinschreibung bereit.“ 

Die Funktion str.contains () kann zum Beispiel dabei helfen, reguläre 
Ausdrücke (siehe Abschn. 4.1.1) als Filterbedingung einzusetzen. Die Hilfe zur 
Funktion können Sie direkt in JupyterLab mit einem Fragezeichen am Ende des 
Befehls aufschlagen: 


df.hashtags.str.contains? 


Die Funktion gibt eine Series mit True bzw. False für jede passende 
Zeile zurück: 


df.hashtags.str.contains ( 
"tierwelt|sumpfschnecke|reptilien", 
case=False, regex=True, na=False 


Der reguläre Ausdruck "tierwelt | sumpfschnecke|reptilien" be- 
deutet, dass eines der drei angegebenen Worter enthalten sein muss. Der Parameter 
case=False sorgt dafür, dass Groß- und Kleinschreibung keine Rolle spielen. 
Durch die zusätzliche Angabe von regex=True, wird das Muster als regulärer 
Ausdruck behandelt. Mit na=False wird festgelegt, dass fehlende Werte nicht 
als Treffer zählen sollen, also False zurückgegeben werden soll, wenn in der 
Spalte hashtags kein Wert steht. 


Eine Übersicht über String-Funktionen finden Sie in der pandas-Dokumentation, siehe 
zum Beispiel ganz unten unter Pandas development team (2022c; https://pandas.pydata.org/ 
pandas-docs/stable/user_guide/text.html). 
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Solche Series mit Wahrheitswerten können genauso wie die oben besprochenen 
Möglichkeiten als Filterbedingung zur Auswahl von Zeilen eingesetzt werden. In- 
nerhalb der über str. contains () erzeugten Series ist für jede Zeile mit True 
oder False angegeben, ob sie ausgewählt werden soll (sogenanntes boolean 
indexing): 


df[df.hashtags.str.contains( \ 
"tierwelt|sumpfschnecke |reptilien", \ 
case=False, regex=True, na=False)] 


Komplexere Filtermöglichkeiten ergeben sich daraus, dass pandas-Funktionen 
die Objekte nicht direkt verändern, sondern immer neue Objekte zurückgeben. 
Gibt eine Funktion einen Dataframe zurück, verfügt dieser weiterhin über Funkti- 
onen zum Auswählen von Spalten oder Zeilen. Dadurch können mehrere Funktio- 
nen mit einem Punkt direkt aneinandergekettet werden. Zurückgegeben wird dabei 
nur das Endergebnis: 


df subset = df[df.favorites > 10] \ 
-loc[:, ['replies', 'favorites']] 


Hierbei werden nur Fälle mit mehr als 10 Favorites ausgewählt und durch die 
angehängte loc [ ] -Funktion bleiben lediglich die Spalten replies und favo- 
rites erhalten. 


Neue Spalten erstellen und Werte berechnen Mitunter müssen neue Spalten 
erstellt oder bestehende Spalten verändert werden, um die Daten aufzubereiten. 
Stellen Sie sich etwa vor, es soll eine neue Spalte gebildet werden, in der Retweets 
und Replies verrechnet sind. Spalten mit Zahlen können direkt mit mathemati- 
schen Operationen behandelt werden, etwa um sie zu addieren: 


df['reactions'] = df['retweets'] + df['replies'] 
Dabei muss man beachten, dass die Addition fehlender Werte wiederum feh- 
lende Werte erzeugt. Mit der Funktion fillna() lassen sich fehlende Werte vor 


der Berechnung ersetzen: 


df['retweets'] = df['retweets'] .fillna (0) 
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Weitere mathematische Funktionen wie den Logarithmus oder das Wurzelzie- 
hen finden Sie in der Bibliothek numpy. 

Das Verändern der Spalten funktioniert in den Beispielen so, dass zunächst mit den 
Funktionen (Addition, fehlende Werte ersetzen) eine neue Liste bzw. ein neues Se- 
ries-Objekt erzeugt wird. Diese Liste wird dann mit dem Zuweisungsoperator einer 
Spalte mit dem gewünschten Namen zugeordnet. Gibt es die Spalte noch nicht, wird 
sie automatisch angelegt.*! Die im vorangegangenen Abschnitt besprochenen Bedin- 
gungen erzeugen solche Listen. Zum Beispiel kann in einer eigenen Spalte namens 
tierwelt festgehalten werden, auf welche Datensätze das Suchmuster zutrifft: 


df['tierwelt'] = df['hashtags'].str. \ 
contains ("tierwelt|sumpfschnecke|reptilien", \ 
case=False, regex=True) 


Eine solche neue Spalte kann dann, wie im folgenden Abschnitt beschrieben, 
weiterverarbeitet werden. So lieBe sich etwa auszihlen, wie viele Tweets ein tier- 
bezogenes Hashtag enthalten — eine erste, einfache Form automatisierter Textana- 
lyse (siehe Kap. 9). 


Aggregieren und auszählen Datenanalyse basiert im Wesentlichen darauf, um- 
fangreiche Daten sinnvoll zusammenzufassen.** Je nach Art der Daten sind unter- 
schiedliche Zusammenfassungen sinnvoll. Besonders für textbasierte Kategorien, 
im folgenden Beispiel die Namen der Tweet-Autor:innen, ist das Auszählen von 
Werten hilfreich: 


df['from'].value_counts () 
Kreuztabellen helfen dabei, die Kombination von Werten zu erfassen, zum Bei- 
spiel wer wie viele Tweets mit tierbezogenen Hashtags verwendet. Die Funktion 
crosstab() nimmt dafür als Parameter mehrere zu kombinierende Spalten 


entgegen: 


pd.crosstab(df['from'], df['tierwelt']) 


“Weitere Möglichkeiten sind die Funktionen pd. assign() und pd.insert (), siehe 
die Dokumentation (Pandas development team 2022b; https://pandas.pydata.org/pandas- 
docs/stable/reference/frame.html). 

# Zu unterscheiden sind hierbei deskriptive Zusammenfassungen von modellbasierten Ana- 
lysen. Erstere beschreiben die Daten (z. B. Mittelwerte), letztere beschreiben den datengene- 
rierenden Prozess (z. B. Regression). 
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Zahlenbasierte, metrische Werte lassen sich dagegen gut über den Mittelwert 
anhand der Funktion mean () zusammenfassen: 


df['favorites'].mean() 


Diese Berechnung lässt sich für mehrere oder alle Spalten eines Dataframes 
gleichzeitig durchführen: 


df[['retweets', 'replies']].mean() 


Grundsätzlich gibt es hier zwei Richtungen, die verrechnet werden können, die 
Spalten oder die Zeilen. Diese beiden Richtungen werden als Achsen (engl. axis) 
bezeichnet. Normalerweise wird der Mittelwert über alle Zeilen berechnet, diese 
Achse hat die Nummer 0 und muss nicht extra angegeben werden. Soll eine spal- 
tenübergreifende Berechnung durchgeführt werden, muss als Achsennummer die 1 
angegeben werden. Das folgende Beispiel berechnet den Mittelwert je Zeile: 


df[['retweets', 'replies']].mean(axis=1) 


Eine schnelle Übersicht über verschiedene Kennwerte ergibt die describe (), 
neben dem Mittelwert werden unter anderem Standardabweichung, Minimum und 
Maximum ausgegeben. Hier können wie im vorangegangenen Beispiel vorher re- 
levante Spalten ausgewählt werden, oder es werden einfach alle zahlenbasierten 
Spalten zusammengefasst: 


df.describe () 
Um verschiedene Gruppen vergleichen zu können, wird die Funktion 


groupby () eingesetzt. Die Anzahl der Fälle je Gruppe kann zunächst in Kombi- 
nation mit der size () -Funktion ermittelt werden: 


df.groupby('from').size() 


Das leistet das Gleiche wie die oben besprochene value_counts () -Funk- 
tion. Zwischen den Gruppen können aber bei numerischen Werten auch Mittelwerte 
verglichen werden, etwa in Bezug auf die Retweets und Replies getrennt nach Au- 
tor:innen, dazu werden nach der Gruppierung die gewünschten Spalten ausgewählt: 


df.groupby('from') [['retweets', 'replies']].mean() 
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Auch die describe () -Funktion lässt sich auf gruppierte Daten anwenden. 
Damit es nicht zu unübersichtlich wird, bietet es sich an, nur einzelne Spalten zu 
fokussieren: 


df.groupby('from') ['favorites'].describe () 


Das Ergebnis dieser Auswertungen sind selbst wiederum Dataframes, die sich in 
eigenen Objekten ablegen und als CSV-Datei speichern lassen. Da die Gruppierungs- 
variable als Index verwendet wird, sollte der Index vorher mit reset_index () 
wieder in eine Spalte überführt werden: 


df_fav = df.groupby('from') ['favorites'].mean() 
df fav 
df_fav.to_csv("favorites_mean.csv", index=False) 


df_fav.reset_index () 


Die bislang besprochenen Funktionen mean () und describe () für metri- 
sche sowie size () und value_counts() für kategoriale Daten sind in die 
pandas-Objekte eingebaut und stehen über die Dot-Notation als Methoden der Se- 
ries oder Dataframes zur Verfügung. Damit lassen sich bereits erste Analysen 
durchführen. Für komplexere Aggregationen können die Zeilen und Spalten mit 
eigenen Funktionen bearbeitet werden. Mit der apply () -Funktion lässt sich eine 
beliebige, auch eine selbst geschriebene, Funktion auf eine der Achsen eines Data- 
frames anwenden. Ähnlich arbeitet transform (), aber mit genaueren Anforde- 
rungen an die Parameter und Rückgabewerte. Durch die agg () -Funktion lassen 
sich gleich mehrere Funktionen achsenweise ausführen. Beispiele und Erläuterun- 
gen finden Sie in der Dokumentation von pandas. Dort werden Sie auch auf eine 
besondere Art stoßen, benutzerdefinierte Funktionen zu definieren: Der lamb- 
da-Operator erlaubt es, sehr kompakt sogenannte anonyme Funktionen zu definie- 
ren, um sie in Kombination mit den Aggregationsfunktionen einzusetzen. 


5.2.4 Wie geht es weiter? 


Der hier beschriebene Einstieg über Jupyter Notebooks ist ein typischer Weg, um 
mit Python loszuentwickeln. Werden die Projekte nach und nach größer, die Da- 
teien wachsen an und der Code wird komplexer, dann lohnt sich die Beschäftigung 
mit weiteren Entwicklungsumgebungen. In wissenschaftlichen Projekten wird 
zum Beispiel die kostenfreie Entwicklungsumgebung Spyder genutzt. Eine kom- 
merzielle Entwicklungsumgebung mit umfangreichen Funktionen ist PyCharm. 
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Für Open-Source-Projekte vergibt der Anbieter auch kostenlose Lizenzen. Py- 
Charm kann sowohl für die wissenschaftliche Datenanalyse als auch für klassische 
Anwendungsentwicklung eingesetzt werden. Beide Umgebungen sind mächtiger 
als JupyterLab, erfordern aber auch eine etwas längere Einarbeitung. Dafür enthal- 
ten sie viele nützliche Funktionen — wer mit R und RStudio gearbeitet hat, vermisst 
in Notebooks möglicherweise die Option, Datenobjekte auch ohne print () -Be- 
fehle anzusehen. Geboten werden zudem Funktionen zum Debugging — das heißt 
zur Fehlersuche und -behebung (siehe Abschn. 6.2). 


Übungsfragen 


. Was ist JupyterLab und was sind Jupyter Notebooks? 
. Wozu dient pip? 
. Mit welchem Python-Befehl können Ergebnisse angezeigt werden? 
. Wie lauten in Python die Muster für folgende Sprachelemente? 
a) Schleifen 
b) Wenn-Dann-Verzweigungen 
c) Funktionsdefinitionen 
5. Wozu wird das Package pandas eingesetzt? 
6. Welche Möglichkeiten fallen Ihnen ein, um mit Python Spalten und Zeilen 
eines Datensatzes auszuwählen? 
7. Wie kann mit Python die Anzahl der Fälle in einem Datensatz festge- 
stellt werden? 
8. Wie kann mit Python für eine Spalte der Mittelwert berechnet werden? 
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Weiterfiihrende Literatur 

Es gibt unzählige Einführungen in Python. Einige sind eher allgemein ausgelegt, 
andere spezifisch für sozial- und geisteswissenschaftliche Analysen. Einige sind 
kostenlos online nutzbar, andere ausschließlich in Papierform zu erwerben. Einige 
richten sich an Einsteiger:innen, andere an fortgeschrittene, erfahrene Program- 
mierer:innen. In der folgenden Liste finden Sie für jede dieser Kategorien mindes- 
tens einen Titel. 


Brooker, P. D. (2019). Programming with Python for Social Scientists. Los Ange- 
les: Sage. 

Downey, A. B., Fröhlich, S. & Gherman, D. C. (2014). Programmieren lernen mit 
Python: Einstieg in die Programmierung (2. Aufl.). Beijing: O'Reilly. 

Ernesti, J. & Kaiser, P. (2018). Python 3: Das umfassende Handbuch (5., aktuali- 
sierte Aufl.). Bonn: Rheinwerk Verlag. 
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Lutz, M. (2007). Einführung in Python (2. Aufl.). Köln: O’Reilly Verlag. 

Shaw, Z. (2014). Learn Python the hard way: A very simple introduction to the 
terrifyingly beautiful world of computers and code (3. Aufl.). Upper Saddle 
River: Addison-Wesley. 

Steyer, R. (2018). Programmierung in Python: Ein kompakter Einstieg für die Pra- 
xis. Wiesbaden: Springer Vieweg. 

Vanderplas, J. T. (2016). Python data science handbook: Essential tools for wor- 
king with data. Sebastopol: O'Reilly. Online unter: https://tanthiamhuat.files. 
wordpress.com/2018/04/pythondatasciencehandbook.pdf 
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Zusammenfassung 


Dieses Kapitel führt in Konzepte ein, die bei der Koordination von größeren 
Projekten und der Zusammenarbeit mit anderen helfen. Sie lernen, was eine 
Versionsverwaltung ist und worauf Sie bei der Wahl von Entwicklungs- 
umgebungen achten können. In Bezug auf rechenintensivere Projekte finden Sie 
eine Einführung in die Virtualisierung und erhalten einen Einblick in High- 
Performance-Computing. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


Versionsverwaltung - Git - Entwicklungsumgebung - IDE - Debugger - Coding 
Style - Webserver - LAMP - Vagrant - Docker - Virtualisierung - Dashboards - 
Parallelisierung - Cloud Computing - High Performance Computing - Slurm 


Die ersten Schritte der automatisierten Datenerhebung und -analyse lassen sich 
noch gut in einzelnen Skripten auf dem eigenen Computer umsetzen. Wenn Pro- 
jekte über einen längeren Zeitraum laufen oder zwischen verschiedenen Be- 
teiligten verteilt sind, sammeln sich jedoch schnell umfangreiche Datenbestände 
und Skripte an. Bei der Koordination solcher Projekte helfen Versionsver- 
waltungen wie Git, in denen alle Änderungen erfasst und miteinander ab- 
geglichen werden (Abschn. 6.1). Umfangreicher Code wird im Laufe von Pro- 
jekten häufig zunehmend modularisiert. Das heißt, aus einzelnen Codeblöcken 
entstehen in sich geschlossene Bausteine, die meist auf mehrere Skripte mit 
unterschiedlichen Funktionen aufgeteilt werden. Entwicklungsumgebungen wie 
RStudio (RStudio 2022a) oder PyCharm (JetBrains 2022a) stellen dabei eine 
Vielzahl an nützlichen Werkzeugen bereit, um die Übersicht zu behalten, den 
Code zu dokumentieren und auf Fehlersuche zu gehen (Abschn. 6.2). Damit die 
entwickelten Skripte auch auf anderen Computern oder Servern im Internet lau- 
fen, können Laufzeitumgebungen festgelegt und untereinander geteilt werden, 
sodass zum Beispiel alle Beteiligten über die gleiche virtuelle Maschine ver- 
fügen (Abschn. 6.3). Spätestens wenn Datensätze zu groß oder Datenanalysen 
zu rechenintensiv für den eigenen Computer werden, führt der Weg schließlich 
in die Cloud, das heißt ein Projekt wird auf einer verteilten Serverinfrastruktur 
ausgeführt (Abschn. 6.4). 
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Die folgenden Kapitel führen kurz in die jeweiligen Techniken zur Organisation 
von Daten, Skripten und Ressourcen ein. Wenn man sich das erste Mal damit be- 
schäftigt, ist diese Welt ziemlich abstrakt. Beispielsweise werden Dateien, um sie 
an andere Wissenschaftler:innen weiterzugeben, nicht mehr kopiert, sondern ge- 
klont — und sind somit an verschiedenen Orten gleichzeitig aktuell. R- oder Python- 
Skripte werden nicht mehr auf der Hardware des eigenen Computers ausgeführt, 
sondern in einer virtuellen Maschine mit einem eigenen Betriebssystem. Das nach- 
folgende Kapitel bietet keine vollumfängliche Einführung in die jeweiligen Tech- 
niken, vielmehr werden diese konzeptionell besprochen. Versuchen Sie sich beim 
Lesen des Textes bzw. beim Ausführen der Skripte eine kognitive Landkarte aufzu- 
bauen und halten Sie sich vor Augen, wie die unterschiedlichen Konzepte zu- 
sammenspielen. Am Ende des Kapitels sollten Sie eine Vorstellung davon haben, 
wie Computational Methods organisiert werden, sobald Projekte an Größe 
gewinnen. 


6.1 Versionsverwaltung 


Systeme zur Versionsverwaltung sind hilfreich, um einzelne Arbeitsschritte zu 
dokumentieren und Zwischenstände zu speichern. Dadurch lassen sich Ent- 
wicklungsschritte im Nachhinein leichter nachvollziehen und verschiedene Ver- 
sionen des Arbeitsstandes können jederzeit wiederhergestellt werden. Auch 
wenn man gemeinsam an Projekten arbeitet, können über mehrere Computer 
hinweg Arbeitsstände über die Versionsverwaltung ausgetauscht werden. Wenn 
mehrere Personen parallel an den gleichen Skripten arbeiten, übernimmt die 
Versionsverwaltung anschließend das Zusammenführen der unterschiedlichen 
Versionen. 

Verbreitet ist vor allem die Versionsverwaltung Git. Git kann vollständig über 
die Kommandozeile bedient werden (siehe Abschn. 1.2.2 zur Arbeit mit der 
Kommandozeile). Dazu installieren Sie zunächst die auf der Download-Seite für 
Ihr Betriebssystem passende Version.' Die Vielfalt der Kommandos kann am An- 
fang verwirrend sein.” Sie müssen die folgenden Konzepte nicht sofort im Detail 
verstehen, viele dieser Vorgänge erschließen sich nach und nach: 


! Siehe Git (2022a; https://git-scm.com/downloads). 
? Für die vollständige Referenz siehe Git (2022b; https://git-scm.com/docs). 
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¢ Init: Zunächst wird ein lokales Repositorium eingerichtet. Das bedeutet, ein 
Verzeichnis auf dem eigenen Computer wird unter Versionsverwaltung ge- 
stellt. Dafür navigieren Sie mit der Kommandozeile zu dem entsprechenden 
Verzeichnis und führen den Befehl git init aus. Dadurch wird ein ver- 
stecktes Verzeichnis mit dem Namen .git angelegt, in dem die Versionsver- 
waltung Änderungen speichert. Dieses Verzeichnis sollte nicht angetastet 
werden, außer in einem Fall: Wenn Sie es löschen, ist die Versionsverwaltung 
wieder aufgehoben. 

e Commit: Nachdem Dateien im Arbeitsverzeichnis erstellt und bearbeitet wur- 
den, fügt der Befehl git add <dateiname> die anstelle des Platzhalters 
<dateiname> angegebene Datei zur Versionsverwaltung hinzu. Mit 
git add . können auch einfach alle geänderten Dateien aufgenommen wer- 
den, beachten Sie den Punkt am Ende des Befehls. Anschließend führt man 
einen Commit durch. Dieser fixiert den Zwischenstand, wobei nur die ge- 
änderten Zeilen in den Dateien gespeichert werden. Jeder Commit bekommt 
automatisch eine eindeutige Nummer, sodass man später darauf zurückgreifen 
kann. Außerdem formuliert man eine Commit Message, in der die letzten 
Änderungen kurz erläutert werden. Auf der Kommandozeile wird dies über 
git commit -m <message> umgesetzt, wobei <message> in An- 
führungszeichen gesetzt und durch eine kurze Erläuterung ersetzt wird. 

e Branch: Man kann mehrere Versionen parallel bearbeiten, indem man einen 
Branch erzeugt. Zu Beginn steht lediglich ein main-Branch? zur Verfügung. Vor 
allem vor umfangreichen Änderungen, zum Beispiel bei der Entwicklung einer 
neuen Funktion, sollte ein neuer Branch angelegt werden: git branch 
<name>. Der Platzhalter <name> wird durch einen eigenen Namen ersetzt. Zu 
diesem neuen Branch kann mitgit checkout <name> gewechselt werden. 
Nachdem Änderungen an den Dateien committed sind, kann man mit 
git checkout main wieder zurückwechseln.* 


®Lange Zeit wurde der Hauptzweig „master“ benannt. Um sprachliche Diskriminierung zu 
verringern, findet momentan ein Umdenken bei vielen in der Programmierwelt gängigen 
Begriffen statt (Menge-Sonnentag 2021). 


*Um die gemeinsame Entwicklung in einem Team zu koordinieren, kann man sich an eta- 
blierten Workflows orientieren. Ein verbreitetes Entwicklungsmodell ist beispielsweise der 
Feature-Branch-Workflow (Santacroce 2015, S. 105). Dabei wird für jedes Feature, das ent- 
wickelt wird, ein eigener Feature-Branch vom main-Branch abgezweigt. Ist das Feature fer- 
tig implementiert, werden die Änderungen in den main-Branch gemerged und der Feature- 
Branch wird anschließend wieder gelöscht. Übersichtliche Tutorials zur Arbeit mit Git 
finden sich unter anderem bei Atlassian (2022; https://www.atlassian.com/git/tutorials). 
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e Merge: Ist die Arbeit auf anderen Branches abgeschlossen, können die Ände- 
rungen in den main-Branch übertragen werden. Vor dem sogenannten Mergen 
wechselt man auf den Zielbranch, in der Regel main. Mit git merge <name> 
wird dann der Stand aus dem mit <name> angegebenen Branch tibertragen. 
Normalerweise ist es kein Problem, wenn zwischenzeitig auch im main-Branch 
Anderungen vorgenommen werden. Denn die Ubertragung erfolgt zeilenweise, 
das heißt, es werden immer veränderte Zeilen gelöscht und neu eingefügt 
(Abb. 6.1). Eine Alternative zum Mergen ist das Rebasen, bei dem die Versions- 
geschichte so umgeschrieben wird, dass alle Commits eines Branches hinter die 
Commits des anderen Branches verschoben werden. Bei Änderungen der 
Versionsgeschichte sind allerdings Absprachen im Entwicklungsteam nötig. 

e Konflikte auflösen: Nur wenn die gleichen Zeilen geändert wurden, kommt es 
beim Mergen zu einem Konflikt. In diesem Fall wird das Mergen angehalten 
und in der betroffenen Datei werden beide Versionen eingetragen. Mit einem 
Texteditor kann die entsprechende Datei geöffnet werden, um nach Markierun- 
gen wie HEAD oder MAIN zu suchen, wobei HEAD die Version im aktuellen 
lokalen Branch kennzeichnet. Hier muss dann manuell entschieden werden, 
welche Zeilen beibehalten werden. Die nicht mehr benötigten Zeilen und die 
Markierungen werden gelöscht und die Datei committed, um den Merge abzu- 
schließen. 

e Status: Mitgit status erhalten Sie einen Überblick über den Zustand des 
Repositoriums und sehen beispielsweise, ob noch Konflikte vorliegen. Hilfreich 


sind zudem git diff, um Änderungen der Dateien und git log, um die Ver- 
sionsgeschichte anzuzeigen. 


v + 2 um src/actions.py Oo 


ites @@ -473,7 +473,7 @@ def queryNodes(self, indexes=False, apimodule=False, options=False) 


473 473 progress.showInfo('threads',u"{} active thread(s)".format(threadpool.getThreadCount())) 
474 474 
475 475 #auto cancel after three consecutive errors, ignore on streaming-tab 
476 - if (status == ‘fetched (200)') or (status == 'stream'): 
476 + if (status == 'fetched (200)') or (status == 'stream')lor (status == "downloaded (200)"): 
477 477 errorcount=® 
478 478 else: 
479 479 errorcount += 1 


Abb. 6.1 Beispiel für einen Commit, bei dem eine Zeile verändert wurde. Quelle: Jünger 
und Keyling (2015; https://github.com/strohne/Facepager/commit/897d000747ec0b4b5d3 
93d0bff86a89a59d6 1 7f0#diff-40fe3daS5e33280189b65 195d7cb0220d)) 
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Versionsverwaltungen ermöglichen vor allem die Zusammenarbeit mit mehreren 
Personen an den gleichen Skripten. Dazu werden die Zwischenstände auf eine ge- 
meinsame Plattform wie GitHub’ oder GitLab° hochgeladen und miteinander 
abgeglichen. Insbesondere Open-Source-Programme werden über diese Platt- 
formen koordiniert. Dabei sind vor allem drei Konzepte wichtig: 


Clone: Mit git clone <URL> wird ein komplettes Repositorium von der 
Plattform in das lokale Arbeitsverzeichnis, in dem man sich auf der Kommando- 
zeile befindet, tibertragen. Hinter dem Befehl kann noch der Name eines 
Unterverzeichnisses angegeben werden, in den das Repositorium herunter- 
geladen werden soll. Ohne Angabe wird automatisch der Name des Re- 
positoriums zum Erstellen eines Unterverzeichnisses verwendet. Soll kein 
Unterverzeichnis entstehen, kann ein Punkt . angehängt werden (siehe für ein 
Beispiel Kap. 1). 

Push: Über git push werden Änderungen zur ursprünglichen Quelle 
hochgeladen. Diese Quelle ist das Online-Repositorium, aus dem die Datei 
geklont wurde. Um darauf zuzugreifen, benötigt man ein Konto, zum Bei- 
spiel bei GitHub. Der Besitzer oder die Besitzerin des Repositoriums muss 
außerdem die entsprechenden Rechte freigeben. Bei neuen Projekten, die 
noch nicht veröffentlicht wurden, legt man auf dem Server zunächst ein 
eigenes Repositorium an, fügt die URL zum lokalen Repositorium mittels 
git remote add origin <URL> hinzu und kann anschließend die 
Änderungen auf den Server pushen. 

Pull: Wenn man mit anderen zusammenarbeitet oder von verschiedenen Com- 
putern aus arbeitet, kann man sich über git pull alle aktuellen Änderungen 
vom Server herunterladen und lokal einspielen. Dieser Schritt muss auch immer 
geschehen, bevor man eigene Änderungen hochlädt. Achtung: Änderungen, die 
noch nicht committed sind, werden durch den pul1-Befehl überschrieben. Ver- 
schaffen Sie sich vorher stets mit git status einen Überblick über den Zu- 
stand des lokalen Repositoriums. 

Pull Request: Will man zu einem Projekt beitragen, zu dem man keinen 
Schreibzugriff hat, kann man das Repositorium auf den eigenen Computer klo- 
nen, verändern und dann einen Pull Request stellen. Der Inhaber oder die In- 
haberin des originalen Repositoriums erhält eine Nachricht und kann die Ände- 
rungen ggf. übernehmen. Wie dabei vorgegangen wird, ist in der Hilfe der 
jeweiligen Plattform (zum Beispiel GitHub oder GitLab) beschrieben. 


>Siehe GitHub (2022b; https://github.com/). 
6 Siehe GitLab (2022; https://about.gitlab.com/). 
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Es müssen nicht immer alle Dateien in einem Verzeichnis unter Versionsverwaltung 
gestellt werden und vor allem große binäre Dateien, wenn es sich also nicht um 
Texte, sondern zum Beispiel um Videos oder Bilder handelt, sollten tendenziell 
nicht in eine Versionsverwaltung aufgenommen werden. Solche Ausnahmen kön- 
nen in der Datei .gitignore festgelegt werden. Wenn Sie auf Plattformen wie 
GitHub oder GitLab ein Repositorium anlegen, können Sie in der Regel aus ent- 
sprechenden Vorlagen auswählen. 

Für den Einstieg in die Arbeit mit Versionsverwaltungen ist — zusätzlich zur 
Installation von Git — ein grafischer Client hilfreich, insbesondere um vor dem 
Commit und Push die Änderungen noch einmal zu überprüfen oder die Historie der 
letzten Änderungen nachzuvollziehen. Mit einem solchen Client erlernt man zu- 
dem nach und nach die Konzepte und Befehle. Bei der Installation von Git wird in 
der Regel bereits ein passender Client mitgeliefert. Eine einfache Alternative ist 
GitHub Desktop’ (Abb. 6.2). 


Repositorien anlegen Synchronisierung mit dem 
oder herunterladen Online-Repositorium 


© File Edit View Repository Branch Help 


= Fetch origin 
~~ Last fetched 5 minutes ago 


Changes 1 History jocs\readme.md AS 


1 changed file @@ -0,0 +1,3 @@ 


docs\readmemd EE: Beer 
3 + 
Was wurde in den 
Dateien verändert? 


Welche Dateien 
wurden verändert? 


E3 Add welcome message Notiz, welche Änderungen 
=e vorgenommen wurden 
Commit 


Abb. 6.2 Die wichtigsten Funktionen von GitHub Desktop. (Quelle: eigene Darstellung) 


7 Siehe GitHub (2022c; https://desktop.github.com/). 
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In GitHub Desktop lässt sich über das FILE-Menü ein neues Repositorium er- 
stellen (NEW REPOSITORY) oder ein vorhandenes Repositorium verwalten (ADD 
LocAL Repository). Außerdem kann ein Repositorium von GitHub oder einer 
anderen Plattform heruntergeladen werden. Dafür wählt man im FILE-Menii den 
Punkt CLONE REPOSITORY aus. Dort sind über den Reiter URL anschließend Fel- 
der verfügbar, um die Adresse des Repositoriums und das Arbeitsverzeichnis ein- 
zutragen. Zuletzt wird das Repositorium über CLONE heruntergeladen und in die 
lokale Ordnerstruktur eingebunden. 

Mit der Schaltfläche FETCH werden das lokale und das Online-Repositorium 
automatisch durch Pull und Push abgeglichen — die Bezeichnung der Schaltfläche 
ändert sich entsprechend. Nach dem Bearbeiten von Ordnern und Dateien kann 
man eigene Änderungen über die Schaltfläche Commit eintragen. Dafür beschreibt 
man zunächst in dem Summary-Feld die Änderungen, bevor diese in den main- 
Branch committet werden können. Uber die Schaltfläche PusH werden die Ande- 
rungen abschließend in das Online-Repositorium übertragen. Falls es dort 
zwischenzeitig Änderungen gab, muss man vorher die aktuelle Online-Version 
über PuLr herunterladen und mergen, anschließend wird der eigene Stand über 
erneutes Klicken zur Primärquelle gepusht. 

Auch wenn die Vielzahl der Funktionen anfänglich erschlagend sein kann, lohnt 
sich der Einstieg in Versionsverwaltungen auf lange Sicht. Sie müssen (außer in 
sehr speziellen Fällen) keine Sorge haben, etwas zu zerstören und können sich nach 
und nach einarbeiten. 


Übungsfragen 


1. Was bedeutet Klonen in der Versionsverwaltung Git? 

2. Was passiert in einer Versionsverwaltung, wenn zwei Personen gleichzeitig 
eine Datei ändern? 

3. Was ist der Unterschied zwischen den Befehlengit pullundgit push? 

4. Mit welchen Befehlen tragen Sie geänderte Dateien in die Versionsver- 
waltung ein und laden diese in ein Online-Repositorium hoch? 


6.2 Entwicklungsumgebungen 


Für den Start mit Computational Methods reicht ein einfacher Texteditor aus: In 
einer Textdatei werden die Anweisungen an den Computer Zeile für Zeile ein- 
gegeben, diese Datei wird dann zum Beispiel über die Kommandozeile an R oder 


6.2 Entwicklungsumgebungen 215 


an Python zum Abarbeiten übergeben und das Ergebnis wird am Bildschirm oder 
in einer neuen Datei ausgegeben. Dieses Input-Throughput-Output-Verfahren setzt 
voraus, dass man den Programmablauf konzeptionell vordenkt, vollständig ver- 
schriftlicht und die Maschine schließlich fehlerfrei arbeitet. Eine solche Perfektion 
ist allerdings weder realistisch noch erstrebenswert. Denn viele Ideen entwickeln 
sich erst schrittweise im Verlauf der Analyse, zum Dataminingprozess siehe Kap. 4, 
und Fehler sind immer einprogrammiert. 

Man braucht also eine Möglichkeit, um die Ideen zu organisieren sowie in den 
Programmablauf und die verarbeiteten Daten hineinzuschauen. Hierbei helfen In- 
tegrierte Entwicklungsumgebungen (engl. Integrated Development Environments, 
IDEs), die man danach unterscheiden kann, ob sie auf eine bestimmte Programmier- 
sprache beschränkt oder universell einsetzbar sind. Einige Entwicklungs- 
umgebungen sind in den Kapiteln zu R (Abschn. 5.1) und Python (Abschn. 5.2) 
bereits eingeführt worden. Während RStudio auf R zugeschnitten ist (RStudio 
2022a), sind PyCharm (JetBrains 2022a) und Spyder (Spyder 2022) für die Ent- 
wicklung mit Python ausgelegt. Alle diese Umgebungen stellen auch Funktionen 
zum Umgang mit Datenbanken, zur Bedienung von Terminals oder zum Erzeugen 
von Berichten mit Markdown zur Verfügung. Universeller sind dagegen Um- 
gebungen wie Jupyter Lab (wenn auch meist in Kombination mit Python ver- 
wendet; Jupyter 2022), Eclipse (auch wenn es aus der Java-Welt kommt; Eclipse 
Foundation 2022) oder Visual Studio Code (Microsoft 2022b). Die genannten Ent- 
wicklungsumgebungen sind zumindest in den Basisversionen für akademische 
Zwecke kostenlos erhältlich oder stehen sogar unter Open-Source-Lizenzen. 

Diese und andere Entwicklungsumgebungen vereinen eine Vielzahl von Hilfs- 
mitteln unter einem Dach: 


e Projektorganisation: Damit nicht der gesamte Code in einer einzigen, vermut- 
lich mit der Zeit sehr unübersichtlichen Datei steht, wird er auf mehrere Dateien 
aufgeteilt. Wenn sich mehrere Dateien aufeinander beziehen, es wird etwa eine 
Variable aus einer anderen Datei verwendet, dann kann leicht zu den ent- 
sprechenden Stellen im Code gesprungen werden. In einer Entwicklungs- 
umgebung werden alle Dateien eines Projekts nicht nur aufgelistet, sondern kön- 
nen auf einmal durchsucht werden, zum Beispiel um dateiübergreifend Variablen 
umzubenennen. Eine gute IDE unterstützt zudem die Refaktorierung des Codes — 
darunter sind neben Umbenennungen auch Umstrukturierungen zu verstehen, die 
zwar keine Änderungen der Funktionalität bewirken, aber den Code eleganter, 
lesbarer oder besser wartbar machen. Viele IDEs integrieren eine Versionsver- 
waltung (siehe Abschn. 6.1), mit der die Arbeit im Team erleichtert wird. 
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e Dokumentation und Coding Style: Was einem im Moment der Entwicklung 
noch selbstverständlich vorkommt, ist einige Wochen später schon wieder kryp- 
tisch geworden. Deshalb sind die Dokumentation von Code und ein einheit- 
licher Coding Style empfehlenswert (Abb. 6.3). Zur Dokumentation von Funk- 
tionen in Python haben sich beispielsweise sogenannte Docstrings etabliert, in 
denen vor jeder Funktion eine Beschreibung, die Input- und die Rückgabewerte 
festgehalten werden. Ein Coding Style legt zudem fest, welche Konventionen 
bei der Benennung von Variablen oder der Definition von Funktionen eingehalten 
werden sollten. IDEs unterstützen dabei, entsprechende Standards einzuhalten, 
indem sie — wie die automatisierte Rechtschreibprüfung in einer Textver- 
arbeitungssoftware — auf Regelverstöße aufmerksam machen oder Platzhalter 
für die Dokumentation einfügen. 

e Coding: Nicht zu unterschätzen ist die Unterstützung beim Schreiben von 
Code. Entwicklungsumgebungen bringen eine Syntaxhervorhebung mit, durch 
die fehlerhafte Befehle oder Klammern schneller sichtbar werden. Ebenso wei- 
sen sie darauf hin, wenn verwendete Objekte noch nicht definiert sind oder de- 
finierte Objekte nicht verwendet werden. Daneben vervollständigen sie nach 
dem Eintippen der ersten Buchstaben automatisch Befehle, zeigen die Hilfe zu 
einer Funktion an oder fügen automatisch Grundgerüste für Funktionen und 
Kontrollstrukturen ein. 

e Debugging: Unter Debugging wird die Fehlersuche in Programmcode ver- 
standen. Einige Fehler sind so knifflig, dass sie nur schwer aufzuspüren sind. 
Mit einem Debugger kann man den Code Zeile für Zeile abarbeiten und dabei 
zusehen, wie sich die Daten (bzw. Variablen und Objekte) verändern. So werden 
die einzelnen Programmierschritte kontrolliert und diejenigen Stellen enttarnt, 
an denen sich Fehler eingeschlichen haben. Gerade in komplexen Programm- 


Korrekte Verwendung Verletzung des Coding Standards 
import. os import sys, os 
import sys 
if foo is not None: if not foo is None: 
print (foo) printi foo} 
= 20% 2 i=it+l 
if greeting: if greeting == True: 
print ("Hello") print ("Hello") 


Abb. 6.3 Beispiele für den Coding Standard PEP 8. Die jeweiligen Varianten funktionieren 
beide. Dennoch ist es für die bessere Lesbarkeit empfehlenswert, sich an einen Standard zu 
halten. (Quelle: van Rossum et al. (2013; https://peps.python.org/pep-0008/)) 
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abläufen ist es hilfreich, einen Breakpoint zu setzen, der den Code entweder an 
einer bestimmten Zeile oder wenn eine Bedingung eingetreten ist — eine Va- 
riable wurde zum Beispiel verändert — pausiert und den Debugger an ebendieser 
Stelle startet. 

e Profiling: Auch wenn Computer viele schematische Aufgaben schneller erledi- 
gen als Menschen, kann dies immer noch zu langsam sein. Vergleicht man etwa 
eine Million Texte miteinander, dann ergeben sich daraus bereits eine Billion 
Vergleiche. Selbst wenn ein einzelner Vergleich nur eine Millisekunde be- 
nötigen würde, müsste man über dreißig Jahre auf das Ergebnis warten. Auch 
der Arbeitsspeicher wird dabei knapp. Deshalb kann es wichtig werden, die 
verwendeten Algorithmen zu optimieren. Beim Profiling lässt man das Pro- 
gramm laufen und kann hinterher für jede einzelne Teilfunktion die Laufzeit 
und den Arbeitsspeicherverbrauch analysieren, um so Flaschenhälse zu identi- 
fizieren (Abb. 6.4). 


Flame Graph Data Options > 
Code File Memory (MB) Time (ms) 
¥ runWorld <expr> -7257.0  7303.2 321000 EE 
¥ do.call worldfunctions.R -7257.0 IE 7302.9 321070 EB 
¥ mediateMessages -5192.8 IE 4514.4 231120 E 
Ww ED worldfunctions.R -5188.5 J 4612.6 281050 $ 
v withVisible -5188.5 [J 4501.1 2809000 E 
v eval -5188.5 IE 4501.1 2820900 E 
v eval -5188.5 IE 4501.1 250900 E 
w_fseg -5188.5 IE 4501.1 280900 E 
w freduce -5188.5 J 4501.1 280000 E 


w function_list[[i 278400 
pairwise_sim ilarity -5046. 277460 E 


> addDistance 
> select 
> rename 
> filter 
> inner_join 
> group_by 
> semi_join Die Funktion zum paarweisen Vergleich 
> top_n aller Datensatze hat in diesem Beispiel die 
> mutate meisten Ressourcen verbraucht: 4 GB 
> withvisible Arbeitsspeicher und fast 5 Minuten Laufzeit. 
> split_chain 
> lapply ol 68 60 
> com piler:::tryCmpfun -43 | 19 70 
> generateLogs -886.4 IE 1267.1 16320 | 


Abb. 6.4 Profiling eines Skripts. (Quelle: eigene Darstellung) 
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« Testing: Auch wenn automatisierte Verfahren insofern reliabel sind, dass sie bei 
gleichem Input das immer gleiche Ergebnis ausgeben, bedeutet dies nicht, dass 
ein Verfahren auch wirklich valide ist und ausgibt, was es soll. Die Beurteilung 
darüber liegt bei den Programmierer:innen, gerade bei komplexen Operationen 
ist die Funktionsweise aber nicht immer gut überschaubar. Um die Qualität des 
Codes zu sichern und Fehler frühzeitig zu erkennen (vor allem, wenn man um- 
fangreiche Refaktorierungen vornimmt), schreibt man idealerweise zu jeder 
Funktion mindestens eine zugehörige Testfunktion. Diese führt die Funktion 
aus, vergleicht sie mit dem zu erwartenden Ergebnis und schlägt Alarm, wenn 
das Resultat nicht den Erwartungen entspricht. Bei der sogenannten test- 
getriebenen Entwicklung (engl. test-driven development) werden die Tests vor 
der Umsetzung der eigentlichen Funktion angelegt. Gerade bei komplexen Be- 
rechnungen, etwa der Bestimmung der Ähnlichkeit zwischen zwei Texten, wird 
vorab der zu erwartende Wert festgelegt und erst dann die konkrete Funktion 
implementiert. Die Implementierung ist erfolgreich, wenn sie auch tatsächlich 
das festgelegte Ergebnis ausgibt. Entwicklungsumgebungen helfen bei der Ent- 
wicklung und beim Ausführen von Tests. 

° Server-Management: Forschungssoftware umfasst auf der einen Seite kleinere 
Skripte für die explorative Datenanalyse, die ausschließlich auf dem eigenen 
Computer ausgeführt werden. Auf der anderen Seite finden sich größere Pro- 
gramme, die auf einem Webserver laufen oder für die Nutzung durch andere 
Wissenschaftler:innen veröffentlicht werden. Entwicklungsumgebungen unter- 
stützen das Management virtueller Maschinen und Container und das Deploy- 
ment, das heißt das Ausspielen auf einen Server, zum Beispiel zur Veröffent- 
lichung einer Software (siehe Abschn. 6.3). 


Nicht alle diese Funktionen werden bei der Arbeit mit Integrierten Entwicklungs- 
umgebungen von Anfang an benötigt, es lohnt sich aber bei der Wahl der Ent- 
wicklungswerkzeuge darauf zu achten, welche Optionen perspektivisch zur Ver- 
fügung stehen. Das Angebot bestimmt gewissermaßen die Nachfrage — nach 
einiger Zeit der Eingewöhnung lassen sich immer mehr hilfreiche Features ent- 
decken. Zum Erlernen von Computational Methods gehört dazu, sich nach und 
nach Entwicklungsroutinen anzueignen, die man später nicht mehr missen möchte. 
Zu Beginn sind die grafischen Oberflächen vor allem hilfreich, um den Überblick 
über das Projekt zu wahren und weil sie viele Hilfestellungen anbieten. Um die 
möglichen Optionen zu erkunden, kann man sich durch die Menüs klicken, statt in 
Dokumentationen zu lesen. Achten Sie dennoch von vornherein darauf, sich die 
Bedienung über die Tastatur anzueignen und halten Sie Ausschau nach Shortcuts. 
Während Computational Methods die Datenanalyse automatisieren, kann eine Ent- 
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wicklungsumgebung die Entwicklungsarbeit automatisieren. Spätestens wenn man 
sich im Klickverhalten wiederholt — weil man zum Beispiel immer wieder auf RUN 
klickt, um ein Skript laufen zu lassen — sollte man auf das dazugehörige Shortcut 
umsteigen. Auch auf die Shortcuts zum Kommentieren von Text (häufig Strg + / 
oder Command + /), die Autovervollständigung (Tabulatortaste sowie Strg + Leer- 
taste bzw. Command + Leertaste) und die Hilfe (F1) wollen Sie nach kurzer Zeit 
nicht mehr verzichten. Im Zeitverlauf tritt die Entwicklungsumgebung dadurch 
immer mehr in den Hintergrund und die Produktivität nimmt zu. Sie fangen an, die 
Gedanken in Code umzusetzen und müssen nicht mehr über das ,,Wie?“, sondern 
nur noch über das „Was?“ nachdenken. 

Einführend wurde bereits darauf hingewiesen, dass sich Entwicklungs- 
umgebungen dahingehend unterscheiden, ob sie auf eine bestimmte Programmier- 
sprache abgestimmt oder ob sie universell einsetzbar sind. Eine weitere Unter- 
scheidung betrifft den Entwicklungsprozess. Bei der interaktiven Entwicklung 
werden Codezeilen oder kurze Schnipsel direkt ausgeführt, um das Ergebnis zu 
betrachten. Für wissenschaftliche Zwecke ist dies nützlich, wenn explorative 
Datenanalyse betrieben wird bzw. ein Skript nach und nach aufgebaut und nur für 
einmalige Analysen verwendet werden soll. Insbesondere Notebooks, die in Jupy- 
terLab für die Programmiersprachen Python, R und Julia eingesetzt werden, för- 
dern diesen Entwicklungsstil und dokumentieren gleichzeitig die Ergebnisse. Bei 
der nichtinteraktiven Entwicklung werden dagegen erst Funktionen und Klassen 
(siehe zur objektorientierten Programmierung Kap. 5) aufgebaut, um dann das 
ganze Programm ablaufen zu lassen. Hier steht die effiziente, elegante und er- 
weiterbare Konstruktion des Programms im Vordergrund. Dieser Stil ist angebracht, 
sobald ein Programm längerfristig genutzt werden soll — zum Beispiel, weil es eine 
grafische Benutzeroberfläche hat oder in Datenanalyseprozesse von Organisatio- 
nen eingebettet ist. Für die nichtinteraktive Entwicklung geeignet sind etwa Py- 
Charm oder Visual Studio Code. 

Schließlich sollte man bei der Wahl der Entwicklungswerkzeuge darauf achten, 
inwiefern die verarbeiteten Daten einsehbar sind. In RStudio sind die aktuell er- 
zeugten Objekte und Datensätze jederzeit gut sichtbar, während sie in JupyterLab 
erst über print () -Befehle ausgegeben werden müssen oder bei der nichtinter- 
aktiven Entwicklung nur mit dem Debugger (über Breakpoints) zugänglich sind. 

Beachten Sie schließlich, dass sich Entwicklungswerkzeuge genauso weiter- 
entwickeln wie die Programmiersprachen und die Verfahren automatisierter Daten- 
erhebung und -analyse. Deshalb haben die genannten Empfehlungen möglicherweise 
eine geringe Halbwertzeit — erkunden Sie selbst, welche Entwicklungsumgebung für 
Sie und das Team am besten geeignet ist. 
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Übungsfragen 


1. Was versteht man unter der Refaktorierung von Code? 

2. Suchen Sie sich ein selbstgeschriebenes Python-Skript und prüfen Sie, ob es 
dem Codingstandard PEP 8 entspricht! 

3. Finden Sie in einer Entwicklungsumgebung Ihrer Wahl heraus, mit welchem 
Shortcut Kommentare angelegt werden können und mit welcher Taste ein 
Befehl automatisch vervollständigt wird! 

4. Probieren Sie für eine Programmiersprache Ihrer Wahl das Debugging in 
einer integrierten Entwicklungsumgebung aus: Setzen Sie einen Breakpoint 
in einem Skript, starten Sie das Skript und inspizieren Sie die Variablen, 
während Sie den Code schrittweise ablaufen lassen! 


6.3 Laufzeitumgebungen und virtuelle Boxen 


Die Welt der Computer ist vielfältig: In den verschiedenen Geräten sind je andere 
Prozessoren, Festplatten, Schnittstellen, Grafikkarten und Zubehöre verbaut oder 
Betriebssysteme installiert. Durch die stetige Weiterentwicklung der Technik sind 
Computersysteme zudem unbeständig und kurzlebig. Nach einigen Jahren in Ge- 
brauch sind Computer meist schon nicht mehr auf dem aktuellen technischen Stand 
und werden durch Nachfolgemodelle ersetzt. Die Vielfalt der Computersysteme 
fördert Innovation, geht aber auch mit einigen Herausforderungen einher. Diesen 
begegnet man spätestens, sobald man selbst Programme entwickelt, die nicht nur 
auf dem eigenen Computer laufen sollen. Dies ist beispielsweise der Fall, wenn 
man ein R- oder Python-Skript im wissenschaftlichen Kontext für andere Wissen- 
schaftler:innen bereitstellen will und sichergehen möchte, dass die eigene Arbeit 
auch nach Jahren noch reproduzierbar ist — oder weil man eine Forschungssoftware 
entwickelt, die auf möglichst vielen verschiedenen lokalen oder serverbasierten 
Systemen gleichermaßen laufen soll. 

Um in der vielfältigen und dynamischen Welt der Computersysteme Stabilität 
zu garantieren, müssen die Laufzeitbedingungen fixiert werden. Eine erste Lösung 
dafür besteht darin, in Skripten die konkreten Packageversionen anzugeben, sodass 
man sich später mit einem Paketmanager die gleichen Komponenten noch einmal 
installieren kann. Unter Python wird dazu etwa der Paketmanager pip verwendet 
und zusätzlich lassen sich in Python sogenannte virtuelle Umgebungen (engl. vir- 
tual environment, kurz venv) einrichten, in denen die für ein Skript benötigten Pa- 
ckages unabhängig von anderen Skripten installiert werden. 
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Mitunter hängt eine Software aber vom Gesamtsystem ab — etwa, wenn man 
einen bestimmten Datenbankserver benötigt oder eine Komponente nur für ein 
spezielles Betriebssystem verfügbar ist. Statt alle benötigten Komponenten einzeln 
auf einem Computer zu installieren, können in diesem Fall virtuelle Laufzeit- 
umgebungen definiert werden, die von dem eigenen Computersystem losgelöst 
und auf andere Computer übertragbar sind. Indem ein virtueller Computer im eige- 
nen Computer eingerichtet wird, ergibt sich ein weiterer Vorteil: Man kann sich das 
Beste aus allen Welten zusammenstellen. So lassen sich etwa auch Linuxpro- 
gramme auf Windowscomputern verwenden.® Insbesondere Serveranwendungen 
wie Datenbankmanagementsysteme oder Webseiten (siehe Kap. 3) sind häufig für 
Linux entwickelt, sodass sich mit der Virtualisierung zum Beispiel gut SQL- 
Datenbankserver auf dem eigenen Computer einrichten lassen. 

Bei der Umsetzung von Virtualisierung spielen in der Regel vier Schichten 
zusammen: 


e Das Wirtssystem (Host) ist der eigene Computer, beispielsweise ein PC mit 
einem Intel-Prozessor, 16GB Arbeitsspeicher und mit einem Betriebssystem 
wie Windows oder macOS. 

e Auf dem Host läuft ein sogenannter Hypervisor. Mit diesem kann eine virtuelle 
Maschine erzeugt werden, die einen selbst gewählten Prozessor, Arbeits- 
speicher, Festplatten oder auch Bildschirme simuliert. 

e Inder virtuellen Maschine wird ein Gastsystem installiert, das auf die Ressour- 
cen des Wirtssystems zugreift. Typischerweise sind das Linuxsysteme wie 
Ubuntu oder Debian. 

e Zur Einrichtung des Gastsystems wird mitunter Provisionierungssoftware wie 
Ansible’ verwendet. Die Provisionierung stellt sicher, dass die benötigten 
Datenbanken eingerichtet werden und Programme und Packages bei allen Nut- 
zenden mit den gleichen Einstellungen vorhanden sind. 


Dieser Aufbau führt dazu, dass erstens die Umgebung für eine bestimmte 
Forschungssoftware von der Umgebung des eigenen Computers isoliert ist und 
zweitens die identische Umgebung auf verschiedenen Computern hergestellt wer- 
den kann. Dabei kommen aktuell vor allem zwei Techniken (oder ähnliche Alter- 
nativen) zum Einsatz, Vagrant und Docker. Während mit Vagrant vollständig auto- 


8 Windows unterstützt mit dem Windows-Subsystem for Linux (WSL) seit einigen Jahren die 
Möglichkeit, auch ohne zusätzliche Virtualisierungssoftware direkt Linux-Programme aus- 
zuführen, siehe Microsoft (2022c; https://docs.microsoft.com/de-de/windows/wsl/). 


° Siehe AnsibleWorks (2022; https://www.ansible.com/). 
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nome virtuelle Maschinen eingerichtet werden, erzeugt Docker sogenannte 
Container. Ein einzelner Container enthält lediglich die konkret benötigten Kom- 
ponenten, zum Beispiel einen Datenbankserver. Eine vollständige Laufzeit- 
umgebung setzt sich in der Regel aus mehreren spezialisierten Containern zu- 
sammen. Hinzu kommt, dass Container stärker in das Wirtssystem eingebettet sind 
und dadurch schneller starten. 

Ein Anwendungsfall für die Virtualisierung mit Vagrant oder Docker besteht 
darin, einen vollständigen Webserver auf dem eigenen Computer einzurichten. Das 
ist nicht nur eine Grundlage für die Entwicklung von Webseiten — wenn etwa im 
wissenschaftlichen Kontext Tools zur Datenaufbereitung im Web bereitgestellt 
oder geisteswissenschaftliche Editionen historischer Schriften veröffentlicht wer- 
den. Virtuelle Boxen lassen sich auch dazu einsetzen, um beispielsweise eine 
Kopie der Wikipedia inklusive der dazugehörigen Datenbank auf einem Computer 
zu erstellen, sodass man diese Daten ohne Webscraping oder APIs ana- 
lysieren kann.'® 


6.3.1 Der LAMP-Stack 


Um einen vollständigen Webserver aufzusetzen, ist eine Reihe an Komponenten 
nötig. Die in den folgenden Abschnitten vorgestellten Setups sind typischerweise 
im Kontext der Webentwicklung anzutreffen, aber gleichzeitig auch eine solide 
Ausgangsbasis für viele weitere Computational-Methods-Szenarien. Eine klassi- 
sche Webseite baut auf dem sogenannten LAMP-Stack auf, die Abkürzung setzt 
sich aus vier verbreiteten Open-Source-Anwendungen zusammen (Kunze 1998): 


e Linux: Webserver sind ganz normale Computer, die aber häufig ohne Bildschirm 
und Tastatur auskommen und nicht Windows oder MacOS, sondern verschiedene 
Varianten von Linux als Betriebssystem verwenden. Für Entwicklungssysteme 
werden beispielsweise Ubuntu Server'! und Alpine” eingesetzt. 


10 Zudem ist ein Grundverständnis der Infrastruktur hinter einer Webseite hilfreich für die 
automatisierte Datenerhebung im Web (siehe Kap. 7). Zu einer sozialwissenschaftlichen Per- 
spektive auf die Infrastruktur des Web siehe unter anderem van Dijck (2020). 

11 Siehe Canonical (2022; https://ubuntu.com/). 


1? Siehe Alpine Linux Development Team (2022, https://alpinelinux.org/). 
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e Apache: Für die Auslieferung der Webseiten über das Internet wird eine Web- 
serversoftware benötigt. Das Apache-Projekt'’ hat in diesem Bereich eine lange 
Tradition: Die dahinterstehende, ehrenamtlich organisierte Apache Software 
Foundation ist eine der bedeutendsten Organisationen im Bereich der Open- 
Source-Software. 

e MySQL: Die Daten, aus denen eine Webseite generiert wird, können unter ande- 
rem in einer relationalen SQL-Datenbank verwaltet werden (siehe Abschn. 3.6). 
MySQL oder alternativ die kompatible Open-Source-Software MariaDB sind 
dafür eine klassische Wahl.'* 

¢ PHP: Selbst wenn Sprachen wie Python und JavaScript durchaus in der Web- 
entwicklung beliebt sind und der Tod von PHP" immer wieder vorhergesagt 
wird, ist diese Sprache nach wie vor die vorherrschende Programmiersprache 
für Webseiten. '® 


Prinzipiell lassen sich all diese Komponenten einzeln installieren. Um jedoch das 
Zusammenspiel zu gewährleisten, ist ein recht hoher Konfigurationsaufwand nötig. 
Vagrant und Docker helfen dabei, den eigenen Computer mit wenig Aufwand in 
einen vollwertigen Server zu verwandeln. Alle Dateien und Funktionen bleiben 
dennoch lokal und sind nicht über das Internet erreichbar. 


6.3.2 Vagrant 


Für die Koordination des Zusammenspiels von Wirtssystem, Hypervisor und Gast- 
system finden sich verschiedene kommerzielle und nichtkommerzielle Programme. 
Eigenständige virtuelle Maschinen lassen sich beispielsweise mit der Open- 
Source-Software VirtualBox" erzeugen, für die Einrichtung einer solchen Box ist 
zudem Vagrant! empfehlenswert. Nach der Installation der beiden Komponenten 
kann mit nur einem einzigen Befehl auf der Kommandozeile eine vollständige 
Serverumgebung erzeugt werden. Dazu erstellt man mit einem Texteditor eine 


13 Siehe Apache Software Foundation (2022b; https://httpd.apache.org/). 
14 Siehe MariaDB Foundation (2022; https://mariadb.org/). 
15 Siehe The PHP Group (2022; https://www.php.net/). 


16 Īn einer Untersuchung von W3Techs (2022) benutzten 78 % der Seiten PHP und in einer 
Befragung von JetBrains (2022b) nutzten 85 % der Webentwickler:innen PHP — auch wenn 
es sich nicht um repräsentative Erhebungen handelt, vermitteln die Zahlen einen Eindruck. 


17 Siehe Oracle (2022c, https://www.virtualbox.org). 
18 Siehe HashiCorp (2022a, https://www.vagrantup.com/) 
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Konfigurationsdatei mit dem Namen Vagrantfile. Diese Datei kann anschließend an 
andere Entwickler:innen weitergegeben werden (® Repositorium). 

Um die einzelnen Bestandteile des Vagrantfile zu verstehen, ist die Dokumenta- 
tion” hilfreich. Im Vagrantfile wird zunächst festgelegt, welche Box verwendet 
werden soll. Eine Box enthält das benötigte Betriebssystem, also das Gastsystem, 
sie wird häufig von anderen Anbietern heruntergeladen, statt dass sie selbst erstellt 
wird. Im folgenden Beispiel wird scotch/box” verwendet. Diese vorbereitete Box 
enthält ein Ubuntu-System mit allen Komponenten, die für die Webentwicklung 
benötigt werden, insbesondere einen PHP-Webserver und einen mySQL-Server:”! 


Vagrant.configure ("2") do |config| 
config.vm.box = "scotch/box" 
config.vm.network "private network", <1 
ip: "192.168.33.10" 
config.vm.hostname = "scotchbox" 
config.vm.synced folder ".", "/var/www ",.J 
:mount options =>; ["dmode=777", "fmode=666"] 
end 


Wenn Sie Vagrant installiert und eine Vagrant-Datei erstellt haben, starten und 
initialisieren Sie die Box ausgehend von dem Ordner mit dem Vagrantfile mit nur 
einem Befehl auf der Kommandozeile (siehe Abschn. 1.2.2): 


vagrant up 


Damit Skripte und Daten zwischen dem Wirts- und dem Gastsystem aus- 
getauscht werden können, werden Ordner zwischen beiden Systemen synchroni- 
siert (synced_folder). Im Beispiel wird durch die Angabe des Punktes der 
Ordner, in dem das Vagrantfile auf dem Wirtssystem liegt, mit dem Ordner /var/ 
www innerhalb des Gastsystems synchronisiert. Legt man dort ein Skript ab — die 
Entwicklung kann auf dem Wirtssystem erfolgen —, so kann es über den Web- 
browser aufgerufen werden. Dazu gibt man in die Adressleiste des Browsers die im 


1 Siehe HashiCorp (2022b, https://www.vagrantup.com/docs). 
20 Siehe Digital Ocean (2022; https://github.com/scotch-io/scotch-box). 


2! Das Umbruchszeichen 4 wurde lediglich aus Darstellungsgriinden eingefügt, die jeweili- 
gen Zeilen miissen ohne Zeilenumbruch eingegeben werden. 
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Vagrantfile vorgegebene IP-Adresse http://192.168.33.10 ein.” Die Box ist so 
weit vorkonfiguriert, dass sich in der Box beispielsweise Content-Management- 
Systeme wie WordPress nutzen lassen. Auf der Webseite von ScotchBox und im 
©- Repositorium des Buchs finden Sie eine kurze Anleitung zur Einrichtung der 
Box mit einer Miniwebseite. 


6.3.3 Docker 


Eine Alternative zur Einrichtung von vollständigen virtuellen Maschinen bietet 
Docker.” Die Software kann auf der Download-Seite von Docker” herunterge- 
laden und installiert werden.” Unter Windows wird zusätzlich das Windows Sub- 
system for Linux (WSL) benötigt.” Auch hier gilt: man muss ein wenig Erfahrung 
sammeln, um die vielen Begriffe aus der Welt der DevOps — mit diesem Begriff 
wird das Zusammenspiel von Softwareentwicklung und IT-Infrastruktur be- 
zeichnet — zu verstehen. 

Zentral bei der Arbeit mit Docker sind die sogenannten Container. Docker- 
Container verhalten sich wie virtuelle Computer, stellen anders als bei der Arbeit 
mit Vagrant aber immer nur einzelne Dienste zur Verfügung, beispielsweise in 
einem Container einen Webserver oder in einem anderen Container einen Daten- 
bankserver. Diese Container bauen auf Images mit Betriebssystemen wie Ubuntu 
auf und fügen die für einen Dienst nötigen Schichten und Pakete hinzu. Ein fertiger 
Container kann wiederum als Image abgespeichert und an andere Entwickler:innen 
weitergegeben werden. Das Image kann sowohl direkt zum Starten von Containern 
verwendet werden, als auch um wiederum andere Images mit weiteren Funktionen 
abzuleiten. Fertige Images werden über sogenannte Registries verwaltet, beispiels- 
weise in der offiziellen Docker-Registry.”’ 


2 Wird keine IP-Adresse konfiguriert, so ist die Box unter den Standardadressen für lokale 
Server erreichbar: http://localhost und http://127.0.0.1. 


Indem zwei der oben benannten Schichten zusammengeführt werden, starten Docker- 
Systeme schneller: Der Hypervisor und das Gast-Betriebssystem werden durch die Docker- 
Engine ersetzt. 


?4 Siehe Docker (2022a; https://www.docker.com/products/docker-desktop). 


Achten Sie unter Windows darauf, bei Nachfragen während der Installation die Linux- 
Container zu aktivieren. 


26 Siehe Microsoft (2022c; https://docs.microsoft.com/en-us/windows/wsl/install). 
27 Siehe Docker (2022b; https://hub.docker.com/). 
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Ein Docker-Container wird durch eine Datei mit dem Namen Dockerfile defi- 
niert, sie kann einfach mit einem Texteditor angelegt werden (® Repositorium). 
Diese Datei beginnt mit der Benennung eines Basisimages (FROM) und der Zu- 
weisung eines Arbeitsverzeichnisses innerhalb des Containers (WORKDIR). An- 
schließend werden Befehle angegeben, die bei der Ersteinrichtung des Containers 
abgearbeitet werden sollen (RUN). Die im folgenden gekürzten Beispiel ver- 
wendeten Linux-Befehle” installieren nach der Aktualisierung des Paketmanagers 
apt-get einen SQL-Client, damit auf den Datenbankserver zugegriffen wer- 
den kann: 


FROM php:7.1.2-apache 
WORKDIR /var/www/html 


# Add SOL client 

RUN apt-get update 

RUN apt-get install -y mysql-client 
RUN rm -rf /var/lib/apt 

RUN docker-php-ext-install pdo mysql 


Einzelne über ein Dockerfile definierte Container werden mit dem Befehl 
docker up gestartet. Eine vollständige Entwicklungsumgebung benötigt je- 
doch in der Regel mehrere Dienste, die über unterschiedliche Container bereit- 
gestellt werden. Für die klassische Webentwicklung benötigt man mindestens 
einen Webserver und einen Datenbankserver. Damit man nicht jeden Container 
einzeln starten und konfigurieren muss, kann man das Zusammenspiel mit Docker 
Compose orchestrieren. Dazu wird eine Datei docker-compose.yml angelegt und 
darin festgelegt, welche Container aus welchen Images gestartet werden sollen. 
Im folgenden Beispiel werden zwei Container verwendet: ein PHP-Webserver 
server php und ein SQL-Datenbankserver server_sql. Ein Unterschied 
zwischen den beiden Containern besteht darin, dass für server_php durch die 
build-Anweidung ein Dockerfile im Unterordner php verwendet wird, während 
der SQL-Dienst direkt das MariaDB-Image aus der Docker-Registry verwendet: 


?8 Bei diesen Befehlen handelt es sich einerseits um Linux-Grundbefehle (rm, apt-get) 
und andererseits um spezifische Docker-Befehle (docker-php-ext-install). Wenn 
man neu in dieser Welt ist, empfiehlt es sich zunächst, Dockerfiles zu recherchieren, von 
anderen Nutzenden zu übernehmen und sich die Befehle nach und nach anzueignen. Der 
Aufbau von Dockerfiles ist in der Docker-Dokumentation beschrieben: Siehe Docker (2022c; 
https://docs.docker.com/reference/). 
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services: 
php: 
build: ./php/ 
container name: 
ports: 
= "80:80." 
- "443:443" 
volumes: 


"server_php" 


- "./html:/var/www/html: rw" 


networks: 

- database 
depends_on: 

= sql 
environment: 


MYSQL ROOT PASSWORD: "root" 


sql: 

image: mariadb:1 
container _ name: 
ports: 

= "3306:3306" 
networks: 

- database 
environment: 


0.3 
"server sql" 


MYSOL_ROOT_PASSWORD: "root" 
MYSQL DATABASE: "devel" 


networks: 
database: 
driver: bridge 
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Die beiden Container hängen miteinander zusammen: Der Webserver wird nur 
gestartet, wenn auch der Datenbankserver vorhanden ist (depends_on- 
Anweisung). Die beiden Container tauschen sich dann über ein Docker-internes 
Netzwerk (networks-Anweisung) mit dem Namen „database“ untereinander 
aus. Während im Datenbankcontainer eine Datenbank mit dem Namen „devel“ er- 
zeugt wird, kann vom PHP-Container mit dem Benutzernamen „root“ und dem 
Passwort „root“ auf diese Datenbank zugegriffen werden (environment- 
Anweisung) — deshalb wurde im oben besprochenen Dockerfile der SQL-Client 
installiert. 
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Bislang ist eine in sich geschlossene Containerwelt beschrieben worden — wie 
kann vom Wirtssystem auf diese Server zugegriffen werden? Hier sind zwei Wege 
zu unterscheiden, einerseits der Netzwerkzugriff und andererseits der Zugriff auf 
Dateien. Ausgehend vom Wirtssystem gelingt der Netzwerkzugriff auf den Web- 
server über den Browser mit der Adresse http://localhost. Dazu wurde in der 
Konfigurationsdatei eine Weiterleitung von Port 80 des Wirtssystems auf den Port 
80 des Gastsystems festgelegt (port s-Anweisung). Ports sind Türen im Netzwerk, 
durch die Daten zwischen verschiedenen Computern übertragen werden, seien es 
physische oder virtuelle Computer. Der Port 80 wird im Internet dazu verwendet, 
Webserver bereitzustellen. Der SQL-Server stellt seine Dienste dagegen unter dem 
Port 3306 zur Verfügung. Jeder Server kann Ports mit nahezu beliebigen Nummern 
öffnen: Auf einem Server ist immer ein bestimmter Dienst mit einem einzelnen Port 
verbunden. Die im Beispiel verwendeten Nummern sind die Standardports für Web- 
und Datenbankserver. Im hier verfolgten Szenario sind diese Ports aber nur lokal auf 
dem eigenen Computer erreichbar, dafür sorgt unter anderem die Firewall des eige- 
nen Computers. Für den Dateiaustausch zwischen den Systemen wird das Unterver- 
zeichnis html im Wirtssystem mit dem Verzeichnis /var/www/html im Gastsystem 
synchronisiert (volumes-Anweisung). Dort können Skripte abgelegt werden, die 
vom PHP-Server verarbeitet werden. Der Webserver sorgt dann in der Standard- 
konfiguration dafür, dass beim Aufrufen von http://localhost im Browser das Skript 
html/index.php auf dem Server ausgeführt wird. 

Ein Dockersystem besteht also aus Images, von denen ausgehend Container 
gestartet werden, die ihre Dienste in Netzwerken bereitstellen und deren Dateien 
über synchronisierte Ordner erreichbar sind. Wie bei der Arbeit mit Vagrant reicht 
ein einziger Befehl auf der Kommandozeile (siehe Abschn. 1.2.2). Um das so defi- 
nierte Ensemble von Containern zum Leben zu erwecken, muss man sich im 
Ordner der docker-compose.yaml befinden und die Kommandozeile ggf. im Ad- 
ministratormodus starten: 


docker compose up -d 


Die benötigten Images werden automatisch heruntergeladen bzw. erstellt. An- 
schließend werden die Container gestartet, mit dem Dateisystem verbunden und 
miteinander vernetzt. Die Option -d sorgt dafür, dass die Kommandozeile nach 
dem Starten wieder für weitere Befehle zur Verfügung steht (detached mode). Das 
kann beim ersten Mal eine Weile dauern, die Zeit reicht für einen Tee oder Kaffee. 
Schon beim zweiten Mal sollten die Container aber blitzschnell starten — das ist ein 
Vorteil gegenüber der vollständigen Virtualisierung, wie sie etwa mit Vagrant mög- 
lich wäre. Für die weitere Arbeit mit Docker gibt es eine Vielzahl nützlicher Be- 
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fehle. Um die weiteren Möglichkeiten besser kennenzulernen, empfiehlt sich ein 
Blick in die Dokumentation von Docker.” 


6.3.4 Anwendungsbeispiel: Mit SQL-Datenbanken arbeiten 


Angenommen Sie wollen die Wikipedia auf Ihrem Computer auswerten, dann kön- 
nen Sie sich einen vollständigen SQL-Dump herunterladen und für die Analyse auf 
Ihrem Computer in eine lokale Datenbank einspielen (siehe Abschn. 3.6). Ein 
SQL-Dump besteht aus Befehlen, um die Tabellen und Daten zu erstellen und kann 
deshalb auch nur in Verbindung mit einem Datenbankmanagementsystem genutzt 
werden. Wenn Sie entsprechend des vorangegangenen Abschnitts eine Docker- 
Umgebung einrichten, dann sind Sie bestens dafür ausgestattet (@ Repositorium). 
Die folgenden Schritte sind an einem kleineren Beispiel ausgerichtet, das sich auf 
andere SQL-Dumps übertragen lässt — es wird ein Ausschnitt aus der International 
Movie Database in eine SQL-Datenbank eingespielt. 


Schritt 1 - Zur Orientierung: Ein- und Auftauchen in den SQL-Server Bei 
der Arbeit mit Docker ist zunächst wichtig, dass man versteht, wie die Systeme 
ineinander verschachtelt sind. Bevor es im nächsten Schritt um das Einlesen der 
Datenbank geht, wird deshalb zunächst das Ein- und Auftauchen in den Server 
demonstriert. Öffnen Sie eine Kommandozeile im Docker-Arbeitsverzeichnis und 
starten Sie die Container: 


docker compose up -d 


Noch befinden Sie sich im Betriebssystem Ihres Computers, also etwa unter 
Windows oder MacOS. Von hier aus können Sie in den PHP-Container eintauchen, 
indem Sie dort eine Kommandozeile starten, typischerweise wird dafür auf Linux- 
systemen Bash verwendet: 


docker exec -it webdock php /bin/bash 


Sie tippen anschließend zwar im gleichen Fenster, sind tatsächlich aber in einen 
anderen (virtuellen) Computer eingetaucht. Das erkennen Sie auch daran, dass sich 
die Darstellung der Kommandozeile leicht verändert hat und nun mit einer Angabe 
wie root@a74182ba3ele:/var/www/html# beginnt (Abb. 6.5). Vor dem 


2° Siehe Docker (2021; https://docs.docker.com/). 
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Eingabesufforderung > al 2s 


Microsoft Windows [Version 18.8.19844.1586] 
(c) Microsoft Corporation. Alle Rechte vorbehalten. 


E:\Data\cm\docker>docker compose up -d 


- Container webdock_sql Started 
- Container webdock_php Started 
- Container webdock_phpmyadmin Started 


E:\Data\cm\docker>docker exec -it webdock_php /bin/bash 

root@a74182ba3ele: /var/www/html# ls 

index.php 

root@a74182ba3ele:/var/www/htnl# mysql --host=sql --user=root --password=root devel 
Welcome to the MySQL monitor. Commands end with ; or \g. 

Your MySQL connection id is 8 

Server version: 5.5.5-18.3.34-MariaDB-1:18.3.34+maria-focal mariadb.org binary distribu 
tion 


Copyright (c) 2888, 2818, Oracle and/or its affiliates. All rights reserved. 


oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 


mysql> SHOW TABLES; 
Empty set (8.88 sec) 


mysql> exit 

Bye 

root@a74182ba3ele:/var/www/htnl# exit 
exit 


E:\Data\cm\docker>| 


Abb. 6.5 Ein- und Auftauchen auf der Kommandozeile. (Quelle: eigene Darstellung) 


@-Zeichen steht der Nutzername im Container, es folgen eine Nummer oder ein 
Name, die den Container identifizieren, und schließlich ist das aktuelle Arbeitsver- 
zeichnis angegeben. Führen Sie den Befehl 1s aus, um zu sehen, welche Dateien 
sich aus Sicht des Containers dort befinden. 

Aus dem PHP-Container können Sie sich nun zum SQL-Server verbinden, auf 
dem durch das vorgegebene Docker-Setup bereits eine leere Datenbank ,,devel“ 
eingerichtet ist: 


mysql --host=sql --user=root --password=root devel 
Und wieder sind Sie in eine neue Ebene abgetaucht, die Kommandozeile ändert 


sich dahingehend, dass sie mit mysql> beginnt. Sie befinden sich nun im SQL- 
Server und können dort Befehle auf der Datenbank ausführen (siehe Abschn. ): 
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SHOW TABLES; 


Aktuell ist die Datenbank noch leer, es werden keine Tabellen angezeigt, des- 
halb wird im nächsten Schritt ein SQL-Dump in diese Datenbank eingespielt. Tau- 
chen Sie zunächst wieder auf, indem Sie den SQL-Server verlassen: 


exit 


Um wieder zum Ausgangssystem zurückzukehren, geben Sie ein weiteres Mal 
„exit“ ein: 


exit 


Bevor Sie weitergehen, vergegenwärtigen Sie sich die verschiedenen Ebenen, 
auf denen Sie gerade unterwegs waren: das Wirtssystem (z. B. Windows oder 
Mac), das Gastsystem (Ubuntu im Docker-Container) und der SQL-Server 
(Abb. 6.6). Der nächste Schritt beginnt noch einmal mit dem Eintauchen in das 
Gastsystem. 


Abtauchen mit Auftauchen mit 


Wirtssystem 


docker compose 


up =d 


decker exec sit 
server_php (Ubuntu im Container) exit 


/bin/bash root@a74182ba3e1e: 


J Ivarlwww/html t 


mysql --host=sql 


docker compose 


(Windows, Linux, Mac) stop 


E:\Data\cm\docker 


Gastsystem 


SQL-Server i 
--user=root exit 
--password=root mysql> 
devel 


Abb. 6.6 Ein- und Auftauchen in den SQL-Server. Die Befehle sind zu Darstellungs- 
zwecken umgebrochen. In der Kommandozeile müssen sie auf einer Zeile eingegeben wer- 
den. (Quelle: eigene Darstellung) 
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Schritt 2 - Einspielen des Dumps Wenn Sie aus dem ® Repositorium des Buchs 
den Ordner zum Kapitel heruntergeladen haben, dann befindet sich im Unterordner 
dump ein gezippter SQL-Dump (siehe Abschn. 3.6). Öffnen Sie wieder die 
Kommandozeile, starten Sie Docker und begeben Sie sich in den PHP-Container 
(siehe oben). Gehen Sie mit folgenden Befehlen in das Verzeichnis mit dem SQL- 
Dump (cd = change dir) und entpacken Sie die ZIP-Datei mit unzip. Sie können 
anschließend mit 1s kontrollieren, ob eine SQL-Datei vorliegt: 


cd /var/dump 
unzip imdb.zip 


Statt dass Sie sich nun zum SQL-Server verbinden und Befehle eingeben, spie- 
len Sie die SQL-Satements mit der Pipe < direkt aus der SQL-Datei in die Daten- 
bank devel ein (alles muss in einer Zeile eingegeben werden): 


mysql --host=sql --user=root --password=root devel < /var/dump/imdb.sql 


Wenn Sie sich anschließend, wie oben beschrieben, die Tabellen in der Daten- 
bank ausgeben lassen, sollten diese nicht mehr leer sein. Auch wenn Sie im Brow- 
ser die Adresse http://localhost aufrufen, sollte ein kleiner Ausschnitt an Personen 
mit Geburts- und Sterbedaten sichtbar werden. 


Schritt 3 - Zugriff auf die Daten Für den Zugriff auf die Daten gibt es viele 
unterschiedliche Optionen, von grafischen Datenbankprogrammen wie DBeaver” 
oder HeidiSQL?' bis zur Kommandozeile. Sobald der Server läuft, brauchen Sie 
lediglich die Serveradresse bzw. den Hostnamen („localhost“) sowie Benutzer- 
name und Passwort (beides „root“). Suchen Sie sich selbst eines der Programme 
aus und versuchen Sie damit die Verbindung herzustellen. 


Für die Datenanalyse können Sie zudem mit Skripten auf die Datenbank zu- 
greifen. Unter R gelingt das etwa mit dem Package RMySOL (Ooms et al. 2021). 
Im Zusammenspiel mit dbplyr (Wickham, Girlich & Ruiz 2022; nicht zu ver- 
wechseln mit dplyr) können Sie für den Datenabruf auf Tidyverse-kompatible Be- 
fehle zurückgreifen, statt SQL-Statements zu formulieren. Zunächst stellen Sie 
dafür die Verbindung zur Datenbank her: 


30 Siehe DBeaver (2022; https://dbeaver.io/). 
31 Siehe Becker (2022; https://www.heidisql.com/). 
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# Packages 

library (tidyverse) 
library (RMySQL) 
library (dbplyr) 


# Verbindung herstellen 
con <- dbConnect ( 
RMySOL: :MySQL(), 
host = "localhost", 
port = 3306, 
username = "root", 
password = "root", 
dbname = "devel" 


Das daraus hervorgehende Verbindungsobjekt con kann dann mit der 
tbl () -Funktion zur Auswahl einer Tabelle innerhalb der Datenbank verwendet 
werden. Mit collect () wird der Inhalt der Tabelle in einem Dataframe für die 
weitere Analyse abgelegt: 


people <- tbl(con, "people") 
people <- collect (people) 
count (people, born, sort = T) 


Lassen Sie die Zeile mit dem collect () -Befehl einmal weg, die Auszählung 
sollte dennoch klappen. Denn es ist nicht unbedingt nötig, die Daten vollständig zu 
laden — wenn Sie Befehle wie filter (), select () oder count () verwenden, 
kann dbplyr daraus im Hintergrund passende SQL-Abfragen formulieren, die dann 
auf dem Server ausgeführt werden, ohne alle Daten zu R zu transferieren. Die 
Daten werden dann automatisch am Ende eingesammelt. Das Package versucht 
also vor einem collect () -Befehl die Datenaufbereitung auf dem Server durch- 
zuführen, hinter diesem Befehl findet die Auswertung dagegen in R statt. 

Mit Python ist die Vorgehensweise ganz ähnlich, wenn Sie die Packages sqlal- 
chemy (Bayer 2012) und pymysql (Matsubara et al. 2016) in Kombination mit pan- 
das (siehe Abschn. 5.2) verwenden. Zunächst wird eine Verbindung hergestellt: 


# Packages 

from sqlalchemy import create engine 
import pymysql 

import pandas as pd 
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# Verbindung herstellen 
db_str = 'mysql+tpymysql://root:root@localhost/devel' 
db_con = create engine (db_str) 


Die Verbindungsdaten werden hier über einen Verbindungsstring angegeben. 
Dieser enthält eine Protokollangabe mysql+pymysql, dann vor dem Doppel- 
punkt den Nutzernamen root und danach das Passwort root sowie nach dem 
@-Zeichen den Hostnamen localhost und die gewünschte Datenbank devel. 
Über das Verbindungsobjekt db_con lassen sich nun SQL-Befehle absetzen, um 
das Ergebnis in einem Dataframe abzulegen: 


df =pd.read_sql ("SELECT * FROM people', con = db_con) 
display (df) 


Sie können sich damit beispielsweise an einer Visualisierung der Geburts- und 
Sterbejahre im Datensatz versuchen. Vergessen Sie nicht, die Datenbankver- 
bindung abschließend mit db_con.dispose() wieder zu beenden! 


Übungsfragen 


1. Wozu wird die Virtualisierung von Maschinen eingesetzt? 

2. Was ist ein LAMP-Stack und wofür wird er eingesetzt? Recherchieren Sie, 

was die Stacks LEMP, MEAN und XAMPP enthalten! 

. Was unterscheidet Vagrant von Docker? 

. Wie starten Sie Docker-Container? 

5. Unter welcher Adresse können Sie mit einem Browser auf einen lokalen 
Webserver zugreifen? 

6. Richten Sie die im ® Repositorium des Buchs definierte Vagrant-Box oder 
die dort vorgegebenen Docker-Container ein! 

7. Was ist ein SQL-Dump und wie gehen Sie vor, um damit zu arbeiten? 

8. Joinen Sie die Tabellen „people“ und „crew“ im IMDb-Datensatz (® Re- 
positorium), um die Anzahl der Schauspieler:innen, Regisseur:innen und 
Produzent:innen von Filmen nach Jahren auszuzählen! 

9. Welche Möglichkeiten kennen Sie, um auf SQL-Datenbanken zuzugreifen? 


WwW 
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6.4  Parallelisierung mit Cores, Clustern und 
Cloud Computing 


Die Zeit eines Menschen ist begrenzt. Und auch ein einzelner Computer schafft es 
bei einigen Aufgaben nicht, in überschaubarer Zeit zu einer Lösung zu kommen. 
Ein Grund dafür kann sein, dass eine große Datenmenge zu bearbeiten ist, eine 
Funktion also zum Beispiel auf Millionen oder Milliarden von Fällen angewendet 
werden soll. Doch auch kleine Datensätze können je nach Fragestellung schnell zu 
praktisch unendlichem Zeitaufwand führen. Sollen etwa eintausend Texte alle mit- 
einander verglichen werden, um die Ähnlichkeit festzustellen, ergeben sich daraus 
bereits 1000 x 1000 = 1 Million Vergleiche — wenn dabei die Wörter einzeln ver- 
glichen werden, wird es noch umfangreicher. So ein Textvergleich kann etwa sinn- 
voll sein, um Duplikate oder automatisiert durch Bots verschickte Spammit- 
teilungen zu entdecken. Eine solche Textvergleichsfunktion benötigt also umso 
mehr Zeit, je umfangreicher das Korpus ist. 

Wenn die Ausführung einzelner Befehle sehr lange braucht, sollte man sich Ge- 
danken über die Optimierung der Skripte machen. Ein erster Ansatzpunkt kann die 
Aufbereitung der Datengrundlage sein — wenn man weiß, dass im Korpus Koch- 
rezepte und Nachrichtenartikel enthalten sind, müssen nur jeweils die Kochrezepte 
und die Nachrichtenartikel untereinander verglichen werden. Man könnte also zu- 
nächst eine Vorprüfung durchführen und die Texte aufgrund festgelegter Stich- 
wörter in eine der beiden Gruppen einteilen. Doch auch die verwendeten Algorith- 
men können optimiert werden, etwa indem effizientere Datentypen wie Zahlen 
statt Texten oder optimierte Sortieralgorithmen eingesetzt werden. 

Beim Textvergleich stößt man mitunter noch an eine weitere Grenze: Sehr lange 
Texte brauchen viel Arbeitsspeicher, in den die Daten für die Verarbeitung hinein- 
geladen werden, und auch dieser ist limitiert. Der Umfang der Ressourcen, das 
heißt Zeit und Raum, die ein Algorithmus benötigt, wird auch als Komplexität be- 
zeichnet (einführend König et al. 2016, S. 313 ff.). Eine lineare Komplexität be- 
deutet, dass der Ressourceneinsatz mit jedem weiteren Fall gleichbleibend an- 
steigt, weil eine einzelne Aufgabe immer die gleiche Zeit benötigt. Bei einem 
naiven (d. h. nicht optimierten) Textvergleich liegt dagegen bei unterschiedlich 
großen Korpora quadratische Komplexität vor, jeder weitere Text führt dazu, dass 
alle Texte mit dem neuen Text abgeglichen werden. 

An Ressourcengrenzen kann man somit in Bezug auf den Input (Datensatz) 
oder den Throughput (angewendete Funktion) einer Analyse stoßen. Aber auch 
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wenn es um den Output (Visualisierung und Bericht) wissenschaftlicher Forschung 
bzw. die Veröffentlichung geht, spielen die Ressourcen von Computersystemen 
eine Rolle. Will man etwa eine interaktive Grafik on the fly angepasst an Ein- 
stellungen der Nutzenden auf einer Webseite generieren, so greifen mitunter viele 
Personen gleichzeitig auf diese Seite zu. Es wäre bei aufwendigen Darstellungen 
kaum hinnehmbar, wenn jede Person so lange auf die eigene Grafik warten müsste, 
bis alle anderen Nutzenden ihre Grafiken erhalten haben. 

Wenn Sie mit einem Problem an solche Grenzen stoßen, die von einzelnen 
Menschen oder Computern nicht in angemessener Zeit bewältigt werden können, 
dann beginnt die ‚eigentliche‘ Welt der Computational Methods. Neben der Opti- 
mierung von Daten und Funktionen kommt in diesen Fällen vor allem ein Ver- 
fahren zur Anwendung: Parallelisierung. Im Bereich der Datenanalyse spricht man 
auch von Big Data, der Begriff bezeichnet im engeren Sinn Daten, die nicht in ein 
einzelnes Gerät passen (Cox und Ellsworth 1997), und entsprechend in verteilten 
und im besten Fall parallelisierten Systemen verarbeitet werden. 

Praktisch kann Parallelisierung bereits auf dem eigenen Computer beginnen, 
aber auch über mehrere Maschinen verteilt werden, es lassen sich drei Kern- 
konzepte unterscheiden: 


1. Cores: Die meisten Computer verfügen über mehrere Recheneinheiten, so- 
genannte Cores, die parallel arbeiten können. Ein Skript kann auf dem eigenen 
Computer auf mehrere Cores aufgeteilt werden. Unter Windows können Sie 
beispielsweise im Taskmanager (Strg + Alt + Entf) im Bereich CPU sehen, über 
wie viele Cores Ihr Gerät verfügt (Abb. 6.9). 

2. Cluster: Skripte lassen sich parallel auf mehreren Computern ausführen, die 
über ein Netzwerk zu einem Cluster verbunden sind. Bei dieser als High Per- 
formance Computing (HPC) bekannten Technologie wird ein Skript über einen 
Kontrollknoten auf die (virtuellen oder physichen) Knoten (engl. nodes) ver- 
teilt. Eine in wissenschaftlichen Einrichtungen häufig anzutreffende Software 
zur Verteilung der Skripte ist Slurm. 

3. Cloud: Bei Cloud-Computing-Anbietern wie Amazon Webservices (AWS) 
können flexibel Ressourcen gemietet werden, zum Beispiel einzelne Server 
oder zu einem Cluster verbundene virtuelle Maschinen. Die Ausrüstung der 
Server kann mit wenigen Mausklicks nach Bedarf umkonfiguriert werden. Sol- 
che Lösungen eignen sich nicht nur für High Performance Computing, sondern 
auch zum Hosten von Anwendungen und Webseiten, etwa für die Publikation 
interaktiver Auswertungen. 
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Wenn man das erste Mal in die Welt der Parallelisierung eintaucht, ist das vermut- 
lich eine echte Herausforderung. Wir begeben uns mit den folgenden Beispielen 
wie Alice im Wunderland ins Rabbit Hole und tauchen Ebene für Ebene immer 
weiter ab. Wenn Sie beim Lesen am Ende wieder in der Wirklichkeit ankommen, 
sind Sie auf einem guten Weg. 


6.4.1 Parallelisierung auf mehreren Cores 


Die einfachste Form der Parallelisierung können Sie auf dem eigenen Computer 
ausprobieren. Als Ausgangspunkt dient im Beispiel eine Document-Feature-Matrix, 
in der die Berichterstattung von Nachrichtenseiten erfasst ist, die laut Reuters Di- 
gital News Report im Jahr 2020 am meisten genutzt wurden (Puschmann und Haim 
2021).** Diese Document-Feature-Matrix enthält in den Zeilen die Nachrichten- 
meldungen (Dokumente) und in den Spalten die Wörter der Texte (Features). In 
den Zellen ist jeweils eingetragen, wie häufig das Wort im Text vorkommt 
(Abb. 6.7; siehe Kap. 9). Dadurch wird jede Nachrichtenmeldung durch einen so- 
genannten Vektor, also die Zahlen in der entsprechenden Zeile, abgebildet. Auf 
Grundlage der Matrix kann die Ähnlichkeit der Texte berechnet werden, etwa um 
Duplikate zu identifizieren. Dazu müssen alle Zeilen mit allen Zeilen verglichen 
werden. Eine einfache Variante zur Messung der Ähnlichkeit von zwei Vektoren 
stellt die Kosinusähnlichkeit dar (siehe Abschn. 4.2.4). Diese Maßzahl reicht von 
1, wenn die Muster in den beiden Vektoren identisch sind, bis 0, wenn sich die 
Vektoren vollständig unterscheiden.’ 

Die Arbeit mit diesem Datensatz benötigt nicht nur Rechenkapazität, sondern 
zudem eine gute Ausstattung des Arbeitsspeichers, je nach Vorgehensweise werden 
über 100 GB benötigt. Grundsätzlich ist es deswegen empfehlenswert, die ersten 
Gehversuche und die Entwicklung von Skripten an kleineren Ausschnitten von 
Datensätzen vorzunehmen, auch um die Wartezeit zu verkürzen. Die entwickelten 


* Diese Daten wurden von Cornelius Puschman und Mario Haim zusammengestellt und über 
das Center for Open Science veröffentlicht, siehe Puschmann und Haim (2021; https://osf.io/ 
uzca3/). Zusätzlich stehen Befragungsdaten und Daten zur Interaktion mit diesen Nach- 
richten auf Facebook zur Verfügung. Ganz herzlichen Dank an die beiden Kollegen für diese 
tolle Arbeit! 

33Die Kosinusähnlichkeit reicht eigentlich von -1 bis +1. Da die Document-Feature-Matrix 
bei Textvergleichen aber keine negativen Werte enthält, ist die Kosinusähnlichkeit in diesem 
Fall immer positiv. 
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= ~ EI Ü 
doc_id CHEBFBEBEBLBFBENE 
572618596 1 0 0 0 0 2 0 0 0 0 
680872371 0 0 0 0 0 0 0 0 0 0 
619009312 0 0 0 0 0 0 0 0 0 0 
692788134 0 2 0 0 0 18 1 0 0 0 
526922325 0 0 0 (0) 0 0 0 0 0 0 
407825590 1 0 0 0 0 1 0 0 0 0 
692564005 0 0 0 0 0 2 0 0 0 0 
458226354 0 0 0 0 0 0 0 0 0 0 
550173514 0 2 0 0 0 14 1 0 0 0 


Abb. 6.7 Eine Document-Feature-Matrix. (Quelle: eigene Darstellung, Auszug aus Pusch- 
mann und Haim (2021; https://osf.io/uzca3/)) 


prototypischen Skripte können anschließend über Nacht oder auf einem High Per- 
formance Cluster die vollständigen Datensätze abarbeiten. Ein Auszug des Daten- 
satzes (@Repositorium) kann in R wie folgt eingelesen werden: 


# Packages laden 

library (tidyverse) 

library (quanteda) 

library (quanteda.textstats) 


# Document-Feature-Matrix einlesen 
dfm <- read_rds ("usenews_small.rds") 
dfm 


Die Dokument-Feature-Matrix umfasst hier 10.000 Dokumente und 1428 Wör- 
ter. Die folgenden Skripte laufen damit sehr schnell durch, eine Parallelisierung 
lohnt sich dafür noch nicht. Sie können die Skripte aber anschließend auf den 
Gesamtdatensatz anwenden. 

Im R-Package quanteda (Benoit et al. 2018) findet sich die Funktion 


textstat_simil (), mit der die Kosinusähnlichkeit zwischen allen Dokumen- 
ten berechnet werden kann: 
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textstat_simil( 


dfm, 
margin = "documents", 
method = "cosine", 
min simil = 0.99 

) %3>% 

as_tibble() 


Der erste Parameter enthält die Matrix. Anschließend wird angegeben, dass die 
Dokumente (margin) mit der Kosinusmethode (cosine) verglichen und nur Paare 
mit einem Ähnlichkeitswert über 0,99 (min_simi1) ausgegeben werden sollen. Mit 
diesem sehr hohen Schwellwert werden fast identische Dokumente ermittelt. Das Er- 
gebnis wird im Beispiel für die bessere Lesbarkeit mit der Funktion as_tibble () 
in eine Tabelle umgewandelt, die 14 sehr ähnliche Paare ausgibt (Tab. 6.1). 

Tatsächlich ist das Ermitteln der Kosinusähnlichkeit bereits ein parallelisierter 
Aufruf gewesen — ohne dass es direkt sichtbar war. Denn das Package quanteda 
sorgt bei einigen Funktionen selbst dafür, die auf dem Computer verfügbaren 
Cores bestmöglich auszunutzen. Unter Windows können Sie das beispielsweise im 
Task-Manager beobachten (Abb. 6.8), die Auslastung aller Prozessoren steigt beim 
Aufruf von textstat_simil() gleichzeitig an. Allerdings ist dies eine be- 
sonders komfortable Situation. Nicht alle Funktionen sind bereits für die Paralleli- 
sierung vorbereitet — insbesondere selbstgeschriebene Funktionen mit zusätzlichen 
Aufbereitungsschritten — und auch, wenn die Berechnung auf ein Computercluster 
übertragen werden soll, sind weitere Schritte nötig. 


Tab. 6.1 Kosinusähnlichkeit von Nachrichten 


doc1_id doc2_id cosine | docl_title doc2_title 
1564146632 | 1591774785 | 1,00 | China coronavirus: China coronavirus: 
Misinformation... Misinformation ... 
1692788134 | 1550173514 | 0,99 | 13 million-year-old bite | Mysterious Ice Age 
marks on ... structure made from... 
1668919094 | 1550173514 | 0,99 | Humans may have Mysterious Ice Age 
arrived in North ... structure made from... 
1557814842 | 1560278337 |0,99 | Here's why the Why men are more likely 
coronavirus ... to contract ... 
1412338756 | 1507331645 |0,99 | Why Hong Kong’s Still | Why Hong Kong’s Still 
Protesting ... Protesting ... 
1581033219 | 1683520913 | 0,99 | Eurojackpot - 90 Eurojackpot - Aktuelle 
Millionen... Gewinnzahlen... 


Quelle: eigene Aufbereitung auf Grundlage von Puschmann und Haim (2021; https://osf.io/ 
uzca3/) 
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CPU Intel(R) Core(TM) i7-7500U CPU @ 2.70GHz 
Auslastung in 60 Sekunden (%) 100% 
Auslastung Geschwindigkeit Basisgeschwindigkeit: 2,90 GHz 
95% 3,1 5 GHz Sockets: 1 

Kerne: 2 
Prozesse Threads Handles Logische Prozessoren: 4 


Abb. 6.8 Die Auslastung der Kerne im Windows Taskmanager. (Quelle: eigene Dar- 
stellung) 


Um einen Vorgang zu parallelisieren, muss die Gesamtaufgabe in Teile zerlegt 
werden. Eine Vorgehensweise kann dabei sein, immer nur wenige Zeilen mit der 
gesamten Matrix zu vergleichen und die Teilergebnisse am Ende wieder zusammen- 
zuführen. Dazu muss die Matrix zunächst unterteilt werden. Wenn insgesamt 10.000 
Dokumente vorliegen, können daraus beispielsweise 10 Chunks mit jeweils 1000 
Dokumenten gebildet werden. Der folgende Befehl erzeugt zunächst einen Vektor, in 
dem für jedes der Dokumente zufällig festgelegt ist, zu welchem Chunk es gehören 
soll. Dazu werden 10.000 Zahlen zufällig aus dem Bereich 1-10 gezogen:”* 


%4 Anstelle der Angabe 10.000 kann mithilfe von n row (d£m) auch die Länge der Matrix und 
somit die Anzahl der Dokumente ermittelt werden. Diese Vorgehensweise ist flexibler in 
Bezug auf Änderungen in der Document-Feature-Matrix. Alternativ kann die Einteilung 
auch systematisch erfolgen, sodass die ersten 1000 Dokumente in Chunk 1, die nächsten 
1000 in Chunk 2 usw. landen. 
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chunks <- sample (10, 10000, replace = TRUE) 


Diese Zuteilung kann nun dazu genutzt werden, für jedes Chunk eine eigene 
Liste zu erzeugen.: 


chunks <- split (c(1:10000), chunks) 


Die resultierende Liste besteht entsprechend der Chunkanzahl aus zehn Ele- 
menten. Jedes der Elemente ist ein Vektor mit den Nummern der zugehörigen 
Dokumente. 

Nach der Aufteilung der Fälle muss nun der Aufruf der Ähnlichkeitsberechnung so 
umgestaltet werden, dass die Funktion für jedes Chunk extra abläuft. Um eine Funktion 
auf eine Liste anzuwenden, gibt es mehrere Varianten (siehe Abschn. 5.1) — die Funk- 
tion map _dfr() bietet den Vorteil, dass die Teilergebnisse automatisch wieder zu 
einem Gesamtdatensatz zusammengebunden werden. Übergibt man zunächst die Liste 
der Chunks, wird die im zweiten Parameter übergebene Funktion für jedes einzelne 
Chunk ausgeführt. Die im Beispiel eingebettete Funktion” function (chunk) er- 
hält als ersten Parameter den Chunk, für den sie jeweils zuständig ist. Der Aufruf von 
textstat_simil() unterscheidet sich von der oben angeführten Variante dahin- 
gehend, dass die Matrix zweimal übergeben wird, einmal vollständig und einmal nur 
mit den im Chunk definierten Zeilen. So wird der Vergleich beim Aufruf der Funktion 
nur für die ausgewählten Zeilen durchgeführt. Indem aber alle Chunks nacheinander 
abgearbeitet werden, sind am Ende alle Zeilen berücksichtigt worden: 


map_dfr( 
chunks, 
function (chunk) { 
textstat_simil ( 
dfm, dfm[chunk,], 


margin = "documents", 
method = "cosine", 
min simil = 0.9 


) %>% as_tibble () 


Im Beispiel wird direkt an der benötigten Stelle eine anonyme Funktion definiert, 
um den Aufruf von textstat_simil() zu kapseln. Die Kapselung ermöglicht es, nicht 
nur textstat_simil(), sondern anschließend auch as_tibble() aufzurufen. In 
R-Funktionen wird immer das Ergebnis des letzten Aufrufs zurückgegeben. 
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Bislang hat noch keine explizite Parallelisierung stattgefunden, die Abwandlung 
des Funktionaufrufs diente nur der Vorbereitung. Der Schritt in die Erzeugung von 
Parallelwelten ist nun aber nahezu trivial. Die Funktion map_dfr () kann dazu ein- 
fach gegen die Funktion future _map_dfr() aus dem furrr-Package (Vaughan 
und Dancho 2022) ausgetauscht werden. Mit der plan () -Funktion wird festgelegt, 
auf wie viele Worker die Aufgabe verteilt werden soll. Unter einem Worker versteht 
man einen eigenständigen Prozess, der in diesem Fall auf einem eigenen Prozessor- 
kern läuft und nacheinander die ihm automatisch zugeteilten Chunks abarbeitet. 


library (furrr) 
plan (multicore, workers = 4) 


future _map_dfr( 
chunks, 
function (chunk) { 


textstat_simil( 
dfm, dfm[chunk, ], 


margin = "documents", 
method = "cosine", 
min simil = 0.9 

) 3>% 

as _tibble () 


Für R und auch für Python gibt es vielfältige Packages und Varianten zur Paral- 
lelisierung. Da sich die Möglichkeiten immer weiterentwickeln, lohnt sich eine 
eigene Recherche. Das Grundprinzip aber bleibt immer gleich: Eine Aufgabe wird 
in Teile zerlegt und an Worker verteilt, nach dem Abarbeiten werden die Ergeb- 
nisse wieder in einem gemeinsamen Datensatz abgelegt. 


6.4.2 Parallelisierung auf einem Cluster 


Für besonders umfangreiche Berechnungen können die Worker auf mehrere Com- 
puter verteilt werden, auf denen jeweils wieder mehrere Kerne zur Verfügung ste- 
hen. Das High-Performance-Computing-Cluster (HPC) der Universität Münster 
umfasst beispielsweise aktuell über 15.000 Kerne verteilt auf mehrere Hundert 
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Knoten, so werden die einzelnen Computer genannt (Universität Münster 2022). 
Sofern eine Datenanalyse parallelisiert werden kann, lassen sich damit Be- 
rechnungen innerhalb eines Tages durchführen, für die sonst Jahre vergehen wür- 
den. Damit dies möglich ist, müssen die Einrichtung des Clusters, Skripte mit den 
Befehlen zur Berechnung und Anweisungen zum Verteilen der Aufgaben auf dem 
HPC zusammenspielen. Einen exemplarischen Durchlauf durch diesen Prozess fin- 
den Sie im © Repositorium des Buchs. Wichtige Kernpunkte und Konzepte wer- 
den nachfolgend eingeführt. 

Bei der Verteilung auf ein Cluster ist insbesondere zu bedenken, wie die Daten 
zugeteilt und wieder eingesammelt werden. Prinzipiell könnten die verschiedenen 
Worker miteinander kommunizieren, um sich dabei zu koordinieren. Das ist bei der 
Berechnung der Textähnlichkeit allerdings nicht nötig, da jeder Worker unabhängig 
von den anderen einen Teildatensatz bearbeiten kann. Stattdessen reicht es in sol- 
chen Fällen, wenn alle Worker auf einen gemeinsamen Ordner mit dem Gesamt- 
datensatz zugreifen können. Der Ablauf kann wie folgt gestaltet werden: 


1. Der gesamte Datensatz wird in einen Ordner auf dem Cluster übertragen. 

2. Das Skript wird auf das Cluster übertragen und auf jedem Knoten mit einer 
eigenen Aufgabennummer gestartet. Aus der Aufgabennummer wird abgeleitet, 
welchen Teildatensatz dieser Knoten bearbeiten soll. 

3. Das Skript bearbeitet auf jedem Knoten seine Teilaufgabe und speichert das Ergeb- 
nis im gemeinsamen Ordner ab. Die Ergebnisse dürfen sich nicht überschreiben, 
deshalb wird die Nummer der Aufgabe in den Dateinamen aufgenommen. 

4. Sobald alle Teilergebnisse vorliegen, können sie auf den lokalen Computer 
übertragen und mit einem weiteren Skript zusammengeführt werden. Alternativ 
kann man sich auf einen einzelnen Knoten des Clusters einloggen und die Zu- 
sammenführung dort vornehmen, um dann das Gesamtergebnis auf den eigenen 
Computer zu holen. 


Da sich die Rahmenbedingungen einzelner Cluster durchaus unterscheiden, lässt 
sich kein allgemeingültiges Beispielskript konstruieren. Die Clusterbetreibenden 
sind aber in der Regel hilfsbereit, veröffentlichen einführende Materialien oder bie- 
ten Schulungen an. Das folgende Schema (® Repositorium) dürfte auf einer Vielzahl 
von Clustern funktionieren, sofern diese passend eingerichtet sind und zur Verteilung 
der Aufgaben Slurm® einsetzen. Slurm ist eine weitverbreitete Open-Source- 
Software zum Management von High Performance Clustern, die auch bei kommer- 
ziellen Cloudanbietern wie Amazon Web Services verwendet werden kann. 


36 Siehe SchedMD (2021, https://slurm.schedmd.com/). 
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Um auf einem solchen Cluster ein Skript zu starten, öffnet man auf dem eigenen 
Computer eine Kommandozeile und loggt sich über das Internet per SSH auf dem 
Cluster ein:*’ 


ssh username@palma.uni-muenster.de 


Die anschließend eingegebenen Befehle werden auf dem Kontrollknoten des 
Clusters ausgeführt. Achtung: Der Kontrollknoten ist in der Regel nicht für Be- 
rechnungen vorgesehen, wenn er blockiert wird, können die anderen Nutzenden 
das HPC nicht mehr erreichen. Deshalb wird auf dem Kontrollknoten lediglich ein 
Slurm-Befehl abgesetzt, der ein vorbereitetes Shellskript auf die anderen Knoten 
verteilt, welches die dort auszuführenden Befehle enthält: 


sbatch ~/slurm_job.sh 


In diesem Shellskript, im Beispiel slurm_job.sh, sind zum einen die Ein- 
stellungen für Slurm enthalten und zum anderen die Befehle, die vom Worker aus- 
geführt werden sollen: 


!/bin/bash 


SBATCH --array=0-9 
SBATCH --cpus-per-task=1 
SBATCH --mem-per-cpu 32G 
SBATCH --partition=normal 
SBATCH --time 00:60:00 
SBATCH --oversubscribe 


Anzahl der Tasks 

Anzahl der Cores je Task 
Benötigter RAM je Task 
Teilbereich des Clusters 
Maximale Laufzeit 


Se oH OSE SHE HEHE 


Knoten werden geteilt 


Rscript ~/slurm_rscript.R 


Dieses etwas gekürzte Skript erstellt einen sogenannten Array-Job, bei dem ins- 
gesamt 10 Aufgaben auf dem Cluster verteilt werden. Slurm sorgt entsprechend der 


37Das Loginverfahren unterscheidet sich zwischen verschiedenen Clustern insbesondere 
dahingehend, wie das Passwort abgefragt wird. Häufig werden dazu keine Passwörter, son- 
dern kryptografische Schlüssel eingesetzt. Ein solcher Schlüssel kann auf der Kommando- 
zeile mit dem Befehl ssh-keygen erzeugt werden und besteht aus einem öffentlichen und 
einem privaten Schlüssel. Der öffentliche Schlüssel wird auf dem Server hinterlegt und beim 
Einloggen authentifiziert man sich mit dem privaten Schlüssel. Dieses Verfahren ist auch zur 
Authentifizierung bei anderen Diensten wie beispielsweise GitHub verbreitet. 
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Angaben dafür, dass für jeden Worker ein Kern und 32GB Arbeitsspeicher zur Ver- 
fügung stehen. Mit einem solchen Array-Job und der Oversubscribe-Einstellung 
können auch Kerne genutzt werden, die andere Nutzenden des Clusters gerade 
nicht benötigen. Die letzte Zeile sorgt dafür, dass auf dem Knoten R gestartet und 
das Skript slurm_rscript.R ausgeführt wird. 

Innerhalb des R-Skripts kann man sich zunutze machen, dass jeder Task des 
Array-Jobs eine eigene Nummer erhält, die im Beispiel von 0 bis 9 reicht. Diese 
Task ID kann aus den sogenannten Umgebungsvariablen ausgelesen werden, um 
daraus das zugeordnete Chunk zu bestimmen. Mit der folgenden Berechnung be- 
arbeitet der erste Worker die Zeilen 1 bis 1000, der zweite die Zeilen 1001 bis 2000 
und so weiter, obwohl alle das gleiche Skript ausführen: 


task_ id <- as.numeric( 
Sys.getenv('SLURM ARRAY TASK_ID') 


chunk start <= (task id * 1000) +1 
chunk end <- chunk_start + 1000 - 1 


Anschließend wird der Datensatz geladen, bearbeitet und das Ergebnis wird im 
Ordner output abgespeichert: 


dfm <- read_rds ("usenews_small.rds") 
sim <- textstat_simil ( 
dfm, 
dfm[c(chunk_start:chunk_end), ], 


margin = "documents", 
method = "cosine", 
min simil = 0.99 


sim %>% 
as _tibble () 3>% 
write rds (pasted ("output/sim_", task_id)) 


Haben die Worker ihre Arbeit beendet, dann loggt man sich auf einem einzelnen 
Knoten (nicht dem Kontrollknoten!) ein oder überträgt die Teilergebnisse auf den 
eigenen Computer. Dort können die Liste der relevanten Dateinamen mit dir () 
erstellt, die Dateien mit readRDS () eingelesen und mitmap_dfr () zusammen- 
gefügt sowie schließlich mit write_rds () abgespeichert werden: 
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files <- dir( 
"output", 
pattern = "sim .*\\.rds", 


full.names = TRUE 


sim <- map_dfr (files, readRDS) 
write rds (sim, "sim.rds") 


Bei der praktischen Umsetzung gibt es viele Stellschrauben, um die Beispiele 
zu verbessern. Vor der ersten Benutzung müssen etwa die benötigten Packages auf 
dem Cluster installiert werden und um dies zu vereinfachen, können Container*® 
eingesetzt werden (siehe Abschn. 6.3 und ® Repositorium). 


6.4.3 Hosting in der Cloud 


Während das High Performance Computing auf umfangreiche Berechnungen aus- 
gerichtet ist und Wartezeiten verkürzt, gibt es neben erweiterten Ressourcen viele 
weitere Gründe zur Nutzung von Cloud Computing. Dafür finden sich je nach Spe- 
zialisierung unterschiedliche Typen von Cloud-Anbietern. 

Kommerzielle Cloud-Plattformen bieten nützliche APIs an, die sich für spezi- 
fische Aufgaben der Datenerfassung, -aufbereitung und -veröffentlichung ein- 
setzen lassen. Onlinedienste wie Amazons Web Services”? können etwa dazu ver- 
wendet werden, Tracking-Daten zu sammeln, indem beim Aufruf einer URL ein 
Log-Eintrag in einer Datenbank erzeugt wird. Auch für Speech-To-Text, die auto- 
matisierte Bilderkennung oder zur Bereitstellung großer Datenmengen kann auf 
spezialisierte Funktionalitäten zurückgegriffen werden. 

Sollen zudem Forschungsergebnisse in einem Dashboard veröffentlicht wer- 
den, wird ein entsprechend spezialisierter Hosting-Anbieter benötigt. Dashboards 
sind interaktive Anwendungen, die zur Visualisierung von Daten eingesetzt wer- 
den. Sie erlauben den Nutzenden sowohl einen schnellen Einblick in die Daten als 
auch die eigene Exploration. Auf diese Weise können beispielsweise Ereignisse 
wie die Berichterstattung auf einem Zeitstrahl oder einer Karte dargestellt werden 


38Eine auf HPC-Clustern anzutreffende Container-Software ist Singularity. Hiermit lassen 
sich beispielsweise vollständig eingerichtete R-Container auf einem Cluster nutzen (Boettin- 
ger et al. 2022; https://www.rocker-project.org/). 

*° Zum Beispiel über AWS Lambda (Amazon Web Services 2022b; https://aws.amazon.com/ 
de/lambda/). 
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und auch Netzwerke lassen sich visualisieren. Zu bedenken ist dabei, dass in der 
Regel mehrere Nutzende gleichzeitig auf eine Webseite zugreifen sollen. Anders 
als beim Ausleihen von Büchern aus einer Bibliothek, warten sie nicht aufeinander. 
Die Optimierung von Wartezeiten betrifft damit nicht nur die Durchführung einer 
Analyse, sondern auch den Zugriff auf die Ergebnisse einer Analyse. Als Daumen- 
regel gilt seit langer Zeit, dass Nutzende bei der Interaktion mit einem Computer- 
system eine Verzögerung von bis zu einer Zehntelsekunde noch als Echtzeit emp- 
finden (Nielsen 1993, S. 135). Um dieses Ziel bei der Umsetzung von Dashboards 
und Webseiten auch für umfangreiche Datensätze zu erreichen, können vor- 
berechnete Ergebnisse eingesetzt werden — anstatt den Datensatz mit allen Nach- 
richtenmeldungen neu auszuzählen, wird etwa die auf Tage aggregierte Zeitreihe in 
ein Dashboard eingebunden. Damit die Reaktionszeiten akzeptabel sind, ist darü- 
ber hinaus die ggf. parallelisierte Rechenleistung des Geräts ausschlaggebend, auf 
dem das Dashboard erzeugt wird. 

Dashboards können direkt aus R oder Python erzeugt werden. In R wird dazu 
etwa das Paket ShinyApp und in Python die Software Dash eingesetzt. Das Grund- 
prinzip ist jeweils gleich: In einem Skript werden Elemente der Benutzeroberfläche 
wie Buttons oder Balkendiagrame erzeugt. Einige der Elemente sind an Ereignisse 
wie das Klicken oder die Eingabe von Text gebunden, das heißt, bei Änderungen 
durch die Nutzenden wird eine Funktion aufgerufen, die passende Daten (zum Bei- 
spiel aus einer CSV-Datei oder einer Datenbank) ausliest und die grafischen Ele- 
mente entsprechend anpasst. Zur Verwendung von ShinyApps und Dash finden 
sich im Web viele gute Tutorials (# Repositorium; Abb. 6.9). 

Dashboards agieren in der Regel als Webserver und erzeugen eine Webseite, die 
im Browser auf dem eigenen Computer angezeigt wird. Ein Teil der Berechnungen 
findet auf dem Webserver (z. B. die Datenaufbereitung über R) und ein Teil direkt 
im Browser der Nutzenden statt (z. B. die Visualisierung mit JavaScript), wodurch 
die Last verteilt wird. Während der Entwicklung wird der eigene Computer als lo- 
kaler Server eingesetzt. Um ein solches Dashboard zu veröffentlichen, kann man 
prinzipiell den eigenen Computer für Zugriffe aus dem Internet öffnen. Dies ist 
aber schon aus Sicherheitsgründen kaum zu empfehlen. Insbesondere wenn hohe 
Zugriffszahlen zu erwarten sind, greift man besser auf spezialisierte Hoster zurück, 
die ggf. auch viele parallele Zugriffe managen. Für Dashboards eignen sich etwa 
Anbieter wie Shinyapps.io oder Plotly.” 

Über spezialisierte Dienste hinaus stellen Full-Stack-Anbieter die Infrastruktur 
für alle Arten von Serveranwendungen zur Verfügung. Hier können virtuelle Ma- 
schinen konfiguriert und (Docker-)Container bereitgestellt werden. Diese Dienste 


“ Siehe RStudio (2020; https://www.shinyapps.io/) und Plotly (2022; https://plotly.com/). 
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News and fatalities in African countries Momken 


fatalities mentions.violence 


Länder 


AG AO BC BN BY CD CF CG 
CM CN CT CV DJ EG EK ER 
ET GA GB GH GV IV KE LI LT 
LY MA MF MI ML MO MP MR 
MZ NG NI OD PU RE RW SE 
SF SG SH SL SO SU TO TP 
TS TZ UG UV WA WI WZ ZA 
Zi 


ENTE eb Ale he eee Auflösung 


Jan 2018 Ape 2016 Jot 2018 Okt 2016 Jan 2017 week 
date 


metric — fatalities — mentions. violence Zeitfenster 


2016-01-01 to 2016-12-31 


data <- reactive({ 


data. in %>% 
Interaktive Verarbeitung 


filter (country.code %in% inputScountries) i i 
der Eingabewerte im 


Skript 


mutate(date putsunit)) 


group_by(date) %>% 

summarize( 
mentions. violence=sum(mentions.violence), 
mentions.al1=sum(mentions.all), 
fatalities = sum(fatalities) 

) %>% 


Abb. 6.9 Auszug aus einer ShinyApp. Anmerkung: Eine Veränderung der Eingabewerte 
führt zur Aktualisierung der Grafik. (Quelle: eigene Darstellung, ® Repositorium) 


haben in der Regel für kleinere Projekte kostenlose Einstiegsangebote und um- 
fangreiche Dokumentationen im Programm und lassen sich bei Bedarf hoch- 
skalieren. Solche Cloud-Plattformen werden insbesondere von den großen 
Technologiekonzernen Amazon, Microsoft oder Google bereitgestellt. Daneben 
finden sich auch lokale kommerzielle Dienste, die auf Cloud Computing speziali- 
siert sind, beispielsweise der deutsche Anbieter Hetzner. Dabei sollte man die Kos- 
ten im Blick behalten oder Kostendeckel einrichten — schließlich berechnen Hoster 
Geld dafür, dass sie ihre Computer zur Verfügung stellen. Deshalb lohnt es sich, die 
unterschiedlichen Dienste und deren Funktionen, Nutzungs- und Datenschutz- 
bedingungen sowie Preise zu vergleichen. Universitäten stellen für wissenschaft- 
liche Projekte häufig kostenfreie Dienste bereit und sind auch aufgrund des Daten- 
schutzes in der Regel zu bevorzugen. 
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Übungsfragen 


1. Was versteht man unter einem Kern und was unter einem Knoten? 

2. Welche Fragestellungen fallen Ihnen ein, bei denen die Parallelisierung auf 
einem Cluster nötig sein könnte? 

3. Recherchieren Sie, ob an Ihrer Hochschule ein HPC mit Slurm zur Ver- 
fügung steht! 

4. Wie kann ein interaktives Dashboard erstellt werden? 
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Zusammenfassung 


Dieses Kapitel führt in die automatisierte Datenerhebung mittels Webscraping 
und über Application Programming Interfaces (APIs) ein. Sie lernen, wie Sie 
mit Python oder R einen Webscraper entwickeln und wie Sie mit APIs interagie- 
ren können. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie 
begleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® 
verweisen. 


Schlüsselwörter 


Webscraping - Webcrawling - Beautiful Soup - rvest - Browser Automation - 
Selenium - Application Programming Interface (API) - HTTP-Statuscode - 
Facepager - Social Media - Google Cloud Vision 


Automatisierte Verfahren der Datenerhebung spielen vor allem dort eine Rolle, 
wo sich das Handeln von Akteuren in Daten niederschlägt.'! Das betrifft insbe- 
sondere die internetvermittelte Kommunikation, etwa wenn Anbieter Websei- 
ten erstellen und die Zugriffe protokollieren, wenn Nutzer:innen auf diesen 
Webseiten Inhalte veröffentlichen, kommentieren und bewerten oder wenn 
Forscher:innen ihre Ergebnisse auf Webseiten publizieren. Steht man als Wis- 
senschaftler:in einem Webangebot gegenüber, so lassen sich drei Ebenen unter- 
scheiden, auf denen sich das Ergebnis von Handeln wiederfindet (siehe 
auch Kap. 2). In seltenen Fällen bekommt man Zugriff auf die Ebene der Da- 
tenbanken, aus denen Webseiten erzeugt und in denen Zugriffe protokolliert 
werden. Dahingegen stellen jedoch einige Anbieter Programmierschnittstellen 
bereit, über die ein automatisierter Zugang zu Funktionen und vorstrukturier- 
ten Daten möglich ist. Auch ohne spezielle Schnittstellen können Daten direkt 
aus Webseiten ausgelesen werden, denn auf Ebene der Browser sind Texte und 
Nutzungsindikatoren für Wissenschaftler:innen genauso sichtbar wie für an- 
dere Nutzer:innen. In den folgenden Kapiteln geht es darum, wie solche Daten 
mit eigenen Skripten erhoben werden. 

Die Ausführungen setzen erste Erfahrungen mit Python und R voraus (siehe 
Kap. 5). Hilfreich sind auch grundlegende Kenntnisse über HTML und URLs 


'Zu bedenken ist bei der Interpretation, dass diese Artefakte auch durch automatische Ver- 
fahren (Bots) hervorgerufen werden können. 
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(siehe Kap. 2 und 3). Es geht hier einerseits darum, die grundsätzliche Vorge- 
hensweise zu vermitteln und ein Grundgerüst zur Verfügung zu stellen. Ande- 
rerseits werden Hinweise auf typische Hürden gegeben. Aus diesen Zutaten 
können Sie anschließend mit etwas Geduld und Kreativität eigene Lösungen 
entwickeln. 


7.1 Webscraping 


Webscraping bezeichnet das automatisierte Extrahieren von Daten aus Webseiten. 
In einem allgemeinen Sinn kann man darunter alle Verfahren verstehen, bei denen 
Daten über das HTTP-Protokoll übertragen und anschließend aufbereitet werden. 
Das HTTP-Protokoll ist eine wesentliche Grundlage des Web und dient vor allem 
dazu, dass Webseiten in Webbrowsern angezeigt werden können. Es ist in der Adress- 
zeile von Browsern erkennbar: Das Protokoll wird in der Regel bei unverschlüssel- 
ten Verbindungen in der Form „http://“ oder bei verschlüsselten Verbindungen als 
„https://“ direkt vor der URL angezeigt.” 

In einem engeren Sinn versteht man unter Webscraping dagegen nur diejenigen 
Verfahren, bei denen Webseiten im HTML-Format verarbeitet werden (siehe 
Abschn. 3.4). Auch APIs bauen teilweise auf dem Web auf, geben Daten aber in 
strukturierter Form zurück, etwa im JSON-Format. Eine Spezialform von Web- 
scraping ist das Webcrawling. Hierbei werden die Links einer Webseite ausgelesen 
und verfolgt, das heißt, es werden immer weitere Webseiten gesammelt. Webcraw- 
ler, auch als Webspider bezeichnet, arbeiten sich auf diese Weise durch das Netz. 
Insbesondere Suchmaschinen verwenden dieses Verfahren, um so nach und nach 
alle Webseiten zu erfassen. 

Für Webscraping als Methode zur automatisierten Datenerhebung gibt es typi- 
scherweise drei Möglichkeiten: 


1. Beim klassischen Webscraping erhält ein Skript eine Liste von URLs und lädt 
die entsprechenden Seiten herunter. Aus dem so abgespeicherten Quelltext wer- 
den die Daten extrahiert. 

Ein Vorteil dieser Methode besteht darin, dass sie vergleichsweise einfach 
umzusetzen ist und auch gut skaliert, das heißt für eine hohe Anzahl von Web- 
seiten eingesetzt werden kann. Aufwendig sind allerdings Authentifizierungs- 


? Siehe Abschn. 2.1. zum Aufbau von URLs und zu Webseiten als Datenquellen. 
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verfahren über Cookies (wenn man sich bei einer Webseite anmelden muss), 
eingeblendete Popups oder der Umgang mit dynamischen Inhalten (wenn 
Webseiten Daten im Hintergrund nachladen). 

2. Bei der Automatisierung des Webbrowsers startet ein Skript einen Browser, 
der dann ferngesteuert wird. Einerseits kann dann wie beim klassischen Web- 
scraping der Quelltext der Seiten abgespeichert und weiterverarbeitet werden. 
Andererseits sind die Inhalte der Seiten im Browser in einem sogenannten Do- 
cument Object Model (DOM) verfügbar, auf das ein Skript zugreifen kann. 
Ein Vorteil dieser Vorgehensweise ist, dass sie dem manuellen Surfen im Web 
sehr nahekommt. Auch Webseitenbetreiber können hier kaum unterscheiden, ob 
ein Skript bzw. Bot oder ein Mensch auf die Webseite zugreift. Zudem kann 
man sich bei einer Webseite anmelden, indem Benutzername und Passwort 
ferngesteuert in die entsprechenden Anmeldefelder geschrieben werden oder 
indem man zwischen automatisierten Eingaben und manuellem Eingreifen hin 
und her wechselt. Auch dynamische Inhalte, die vom Browser automatisch 
nachgeladen werden, sind zugänglich, wenn man den Ladevorgang abwartet. 
Diese Vorgehensweise ist sehr langsam, hat aber den Charme, dass man dem 
Computer beim Surfen zuschauen kann. 

3. Spezialprogramme wie RapidMiner, ScrapeBox oder Facepager bieten dage- 

gen grafische Benutzeroberflächen an, um Seiten herunterzuladen und zu ver- 
arbeiten.” 
Als Vorteil mag hierbei erscheinen, dass man nicht programmieren muss. Wer 
keine Programmiererfahrung hat, bekommt hiermit den schnellsten Einstieg. 
Dieser Vorteil ist aber trügerisch, denn gleichzeitig gibt man die Hoheit über 
den Prozess der Datenerhebung auf. Nicht nur die Funktionsweise einer Platt- 
form wie Facebook ist dann eine Black Box, sondern zusätzlich auch die zur 
Datenerhebung eingesetzte Software. 


Alle drei Möglichkeiten werden im Folgenden kurz vorgestellt. 


7.1.1 Klassisches Webscraping 


Klassisches Webscraping kann in drei Schritte unterteilt werden. Zunächst werden 
die benötigten Webseiten heruntergeladen, das heißt, die HTML-Dateien werden 
abgespeichert. Im zweiten Schritt werden aus diesen Dateien die gewünschten Da- 


3Siehe RapidMiner (2021; https://rapidminer.com/), ScrapeBox (2022; http://www.scrape- 
box.com/) und Jünger und Keyling (2022; https://github.com/strohne/Facepager/). 
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ten extrahiert. Dazu werden die Dateien in der Regel so eingelesen, dass die 
Struktur der Daten in Strukturen der Programmiersprache überführt wird. Ein sol- 
cher Prozess wird parsen genannt und das dazu eingesetzte Programm ist ein Par- 
ser. Schließlich werden diese extrahierten Daten in einem Format abgespeichert, 
das für die weitere Verarbeitung geeignet ist, etwa in Tabellen im CSV-Format. 
Webscraping lässt sich mit vielen verschiedenen Programmiersprachen umsetzen." 
Mit Python (siehe Abschn. 5.2) läuft dieser Prozess typischerweise wie folgt 
ab (unten finden Sie ein Beispiel mit R): 


1. Mit Funktionen aus der Bibliothek requests werden Webseiten heruntergela- 
den und auf dem Computer abgespeichert (Reitz 2020). Zusätzlich kommen in 
der Regel noch Funktionen aus der Bibliothek os zum Einsatz, um mit Dateien 
und Verzeichnissen umzugehen. Hierbei ist zu beachten, dass die reinen HTML- 
Dateien heruntergeladen werden und deshalb zum Beispiel kein JavaScript aus- 
geführt wird. Einige Seiten enthalten nur ein Grundgerüst und laden die Inhalte 
erst mit JavaScript und sogenannten XML HttpRequests (XHR) nach. Diese 
Seiten können mit klassischem Webscraping nicht ohne Weiteres ausgele- 
sen werden. 

Häufig sind die Betreiber allerdings darauf eingestellt, zumindest die we- 
sentlichen Inhalte auch ohne JavaScript auszuliefern. Mitunter werden auch 
spezielle Mobilseiten angeboten, die ohne JavaScript auskommen. Um zu er- 
kunden, wie eine Seite ohne JavaScript aussieht, kann man dieses im Browser 
über die Einstellungen übergangsweise deaktivieren. Einige Anbieter stellen 
ihre Inhalte zusätzlich als RSS-Dateien zur Verfügung. Das hat den Vorteil, dass 
die Daten ähnlich wie bei der Verwendung von APIs schon vorstrukturiert sind. 
Diese Dateien enthalten XML und können im Prinzip genauso verarbeitet wer- 
den wie HTML-Seiten. 

2. Die Dokumente werden anschließend mit Funktionen aus der Bibliothek Beau- 
tiful Soup geparst (Richardson 2022). Beautiful Soup kann sowohl HTML als 
auch XML verarbeiten und ist je nach Modus mehr oder weniger fehlertolerant. 
Das ist wichtig, weil Webseiten nicht immer standardkonform sind. Genauso 
wie dieses Dokument ganz sicher Rechtschreib-, Formulierungs- und Formatie- 
rungsfehler enthält, wird man auch im Web regelmäßig auf Fehler oder zumin- 
dest Sonderfälle stoßen. Nach dem Einlesen liegen die Daten in einem soge- 
nannten Document Object Model (DOM) vor, das heißt die Teile des Dokuments 


*Webscraping ist sogar ausschließlich über die Kommandozeile möglich. Zum Herunterla- 
den können die Programme wget oder curl genutzt werden, zum Extrahieren von Daten 
mittels regulärer Ausdrücke zum Beispiel grep. 
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sind in einer hierarchischen Baumstruktur abgelegt, wobei die Elemente Knoten 

genannt werden, die Verbindungen zwischen den Knoten heißen Achsen. Für 

den Zugriff auf die Elemente stellt Beautiful Soup mehrere Möglichkei- 
ten bereit: 

— Navigieren: Man kann sich im baumartig aufgebauten DOM von Ast zu Ast 
hangeln, wobei sich die Stammbaumterminologie eingebürgert hat. Ausge- 
hend von einem Element kann man die Kindelemente (engl. children), Ge- 
schwisterelemente (engl. siblings) oder das Elternelement (engl. parent) 
erreichen. 

— Suchen: Elemente können mittels ihres Namens oder ihrer Attribute gesucht 
werden (siehe Abschn. 3.4). Dabei kann man auch reguläre Ausdrücke ver- 
wenden (siehe Abschn. 4.1.1). 

— CSS-Selektoren: Cascading Stylesheets (CSS) sind eigentlich eine Sprache 
zur Formatierung von Webseiten, zum Beispiel um Schriftfarben oder die 
Breite einer Spalte festzulegen. Mit Selektoren wird bestimmt, welche Ele- 
mente formatiert werden sollen. Die einfachsten Selektoren bestehen nur aus 
dem Namen eines Elements. Man kann Elemente zudem durch ihre Klassen- 
attribute und IDs auswählen sowie in hierarchisch tieferliegende Ebenen des 
DOM eintauchen (siehe Abschn. 4.1.2). 

3. Die Inhalte der so ausgewählten Elemente werden schließlich in einer passen- 
den Datenstruktur abgelegt. Wenn mehrere Seiten ausgelesen werden, kann 
zum Beispiel eine Liste von Dictionaries verwendet werden. In jedem Dictio- 
nary sind dann die einzelnen Datenwerte einer Seite als Name-Wert-Paare ab- 
gelegt. Eine solche Datenstruktur lässt sich im JSON-Format abspeichern, sie 
lässt sich aber auch in eine Tabelle umformen. Jedes Element der Liste ent- 
spricht dabei einer Zeile, die Namen innerhalb der Dictionaries geben die Spal- 
ten an und die Werte in den Dictionaries entsprechen den Zellen der Tabelle. 
Die Bibliothek pandas (Pandas development team 2022a) stellt Funktionen be- 
reit, mit denen Listen von Dictionaries in tabellenartige Strukturen umgeformt 
werden können. Das Ergebnis lässt sich dann zum Beispiel als CSV- oder 
Excel-Datei abspeichern. 


Das folgende Beispiel setzt diese Schritte um und extrahiert eine Wikipedia-Tabelle 
deutscher Zeitschriften — sortiert nach Auflagenstärke im vierten Quartal 2014 
(Abb. 7.1). Möglicherweise müssen Sie die Skripte etwas anpassen, denn das Web 
entwickelt sich beständig weiter und die Anbieter ändern immer wieder die Struk- 
tur von Webseiten. Die grundsätzliche Vorgehensweise bleibt aber gleich. 
Erstellen Sie zunächst ein neues Jupyter-Notebook (siehe Abschn. 5.2) und ge- 
hen Sie dann Stück für Stück vor, indem Sie einzelne Zellen einfügen und ausfüh- 
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Webseite 


Deutschland || Bearbeiten | Quelltext bearbeiten ] 


Liste deutscher Zeitschriften sortiert nach verkauften Auflagen im vierten Quartal 2014 gem. Informationsgemeinschaft 
zur Feststellung der Verbreitung von Werbeträgern e. V. (IVW)!4l. In der Übersicht sind nur die Gruppen 


e Publikum(szeitschriften) 
e Fach(zeitschriften) und 
e Kunden(zeitschriften) 


enthalten und keine Supplements (rtv, Prisma, chrismon, Kultur SPIEGEL, ZEITmagazin Leben, SZ-Magazin etc.). 


Rang # | Titel $ | Auflage + Gruppe ¢ Sachgruppe 


ADAC Motorwelt 4.072.934 | Publikum | Motorpresse 

I Apotheken-Umschau | 9.616.642 | Kunden Apotheken/Medizin/Gesundheit Wort & Bild Verlag 
Bleibgesund 6.423.491 | Kunden Medizin/Gesundheit wdv-Gruppe 
bleibgesund 60 3.192.922 | Kunden Medizin/Gesundheit wdv-Gruppe 


Quelltext 
Überschrift auf dritter Ebene <h3> 


> <p>...</p> 
v<ul> 
bi<12>..¢/23> 
> <li>...</li> 
Fela 
</ul> 
> <p>..</p> 
v<table class="wikitable sortable zebra jquery-tablesorter"> 
> <thead>..</thead> 
¥ <tbody> Tabellenzeile <tr> mit Spalten <td> 
v<tr> 
<td>1 </td> 
v<td> 
v<i> 
<a href="/wiki/ADAC Motorwelt" title="ADAC Motorwelt">ADAC Motorwelt</a> 
</i> 
</td> 
<td>4.072.934 </td> 
<td>Publikum </td> 
<td>Motorpresse </td> 
v<td> 
<a href="/wiki/ADAC” title="ADAC">ADAC</a> 
</td> 
</tr> 
> <tr>..</tr> 


Ungeordnete Liste <ul> mit List Items <li> 


Abb. 7.1 Webseite und Quelltext einer Seite im Vergleich. (Quelle: Ausschnitt aus Wikipe- 
dia (2021,  https://de.wikipedia.org/wiki/Liste_auflagenstärkster_Zeitschriften#Deutsch- 
land), CC-BY-SA. Den vollständigen Quelltext können Sie im Browser mit der Entwickler- 
konsole betrachten (siehe Abschn. 3.4)) 
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ren (® Repositorium). Versuchen Sie dabei zu verstehen, was der Code bewirkt. 
Zur Erinnerung: Die Zeilen mit einem Hash # am Anfang sind Kommentare, die 
nur der Erläuterung und Dokumentation dienen. Zur Überprüfung der Schritte kön- 
nen Sie den Inhalt der Objekte mit dem print () -Befehl ausgeben. Grundsätzlich 
wird in Jupyter-Notebooks das zuletzt angegebene Objekt in einer Zelle automa- 
tisch ausgegeben, sodass der print () -Befehl nicht immer nötig ist. 


Schritt 1: Dokumente herunterladen Im ersten Schritt werden die Dokumente 
heruntergeladen und in einer Datei im Arbeitsverzeichnis abgespeichert. Wesent- 
lich ist der Befehl requests.get (), mit dem eine Anfrage an den Webserver 
gesendet wird, um eine Seite herunterzuladen. Welche Seite genau heruntergeladen 
werden soll, wird tiber eine URL angegeben. Der Server antwortet auf die Anfrage 
zunächst mit einem Statuscode. Mit dem Statuscode 200 signalisiert der Server, 
dass die Seite vorhanden ist und heruntergeladen werden kann. Weitere häufig 
anzutreffende Statuscodes sind 404, wenn eine Seite nicht vorhanden ist, oder 500, 
wenn auf dem Server ein Fehler auftritt.’ 


# Bibliotheken einbinden 
import os 
import requests 


# Unterverzeichnis zum Herunterladen festlegen und 
# anlegen, wenn es noch nicht existiert 
directory = "html" 
if not os.path.exists (directory): 
os.makedirs (directory) 


# URL und Dateiname festlegen 

url = "https://de.wikipedia.org/wiki/" + \ 
"Liste auflagenstsC3sA4rkster Zeitschriften" 

dateiname = directory + "/zeitschriften.html" 


# Herunterladen 
response = requests.get (url) 


°Die URL enthält einen Umlaut „ä“, der hier als Prozentkodierung angegeben ist (siehe 
Abschn. 2.1). Leerzeichen und Umbrüche haben in Python eine Bedeutung. Da einige Zeilen 
zu lang für die Darstellung sind, wurden sie über das Zeichen \ umgebrochen. Python inter- 
pretiert dieses Zeichen so, dass der Code fortgesetzt wird. 
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if response.status_code == 200: 
with open (dateiname, 'wb') as datei: 
datei.write (response.content) 


Nach dem Ausführen dieses Abschnitts sollte im Unterverzeichnis html eine 
HTML-Datei der Webseite liegen. Öffnen Sie die Datei mit dem Browser oder mit 
einem Texteditor wie Atom, um sich den Inhalt anzuschauen. In der Browseran- 
zeige der HTML-Datei kann es Ihnen so vorkommen, als wäre die Datei kaputt, da 
sie nicht ordentlich formatiert ist. Dies liegt daran, dass nur der HTML-Inhalt ohne 
die grafische Gestaltung (CSS-Dateien) heruntergeladen wurde — für die Datener- 
hebung ist das in der Regel genau richtig. 

Bei der Anfrage lassen sich noch weitere Informationen an den Webserver schi- 
cken, um mit einem Skript das menschliche Surfen nachzuahmen. Zum Beispiel 
können Cookies mitgeschickt werden, um sich bei einer Seite anzumelden. Hilf- 
reich ist auch das Übermitteln eines User-Agent. Der User-Agent gibt an, mit wel- 
chem Programm auf die Webseite zugegriffen wird — damit kann sich ein Skript als 
Webbrowser wie Chrome oder Firefox ausgeben. Beim Webscraping wird das hin 
und wieder nötig, da einige Webserver nur Anfragen von Browsern, nicht aber 
Skripten, akzeptieren. Um herauszufinden, welche Cookies oder welchen User- 
Agent ein Browser normalerweise versendet, können Sie im Browser die Entwick- 
lerkonsole verwenden.° Wie diese Angaben mitgeschickt werden können, lässt sich 
in der Dokumentation der requests-Bibliothek nachlesen.’ 


Schritt 2: Dokument parsen Im zweiten Schritt wird mit BeautifulSoup () 

die Datei eingelesen und im Objekt soup abgelegt. Sie können dieses Objekt be- 
liebig benennen, es repräsentiert das Wurzelelement der Seite. Von dort kann auf 
das Document Object Model und damit auf die Kindelemente zugegriffen werden. 
Schauen Sie sich den Quelltext genau an, um die gewünschten Elemente zu identi- 
fizieren — dafür müssen Sie zunächst den Aufbau von HTML-Dateien verstehen 
(siehe Abschn. 3.4)! Die Namen der Elemente können Sie am einfachsten mit der 
Entwicklerkonsole des Browsers herausfinden. Im Beispiel soll eine Tabelle aus 


‘Die Entwicklerkonsole lässt sich etwa in Firefox durch Rechtsklick auf eine Webseite mit 
der Option ELEMENT UNTERSUCHEN oder durch Drücken der Taste F12 öffnen. Anschlie- 
Bend können Sie unter Netzwerkanalyse eine beliebige Anfrage anklicken. Es sollten die 
Details der Anfrage angezeigt werden wie beispielsweise die Header, unter denen auch der 
User-Agent gelistet ist. Ein User-Agent für Firefox lautet zum Beispiel „Mozilla/5.0 
(Windows NT 10.0; Win64; x64; rv:88.0) Geck0/20100101 Firefox/88.0.“ 


7 Siehe Reitz (2022; https://requests.readthedocs.io/). 
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dem Quellcode extrahiert werden. Tabellen sind in <table>-Elementen enthal- 
ten. Darin ist jede Zeile in einem <tr>-Tag gekapselt, worin sich wiederum die 
einzelnen Spalten in <td>-Tags finden (Abb. 7.1). 


Die Beautiful Soup-Funktion select () erlaubt es, mittels CSS-Selektoren 
Elemente zu finden. Im Output erhält man eine Liste mit allen Elementen, auf die 
der CSS-Selektor zutrifft. Im Beispiel werden zunächst ausgehend vom Wurzel- 
element mit select ('table') alle untergeordneten Tabellen, also alle 
<table>-Elemente, aus dem DOM ausgelesen. Aus der Liste tables kann 
dann mit [3] auf die vierte Tabelle,’ diejenige mit den deutschen Zeitschriften, 
zugegriffen werden. Innerhalb der Tabelle können nach dem gleichen Schema alle 
Zeilen gewonnen werden. Die erste Zeile enthält keine Inhalte, sie wird mit 
table rows[1:] aussortiert, indem nur Zeilen ab Index 1 behalten werden. Es 
lohnt sich, die Dokumentation von Beautiful Soup zu lesen, um einen Überblick 
über weitere Möglichkeiten zu erhalten. !° 


# Bibliotheken einbinden 
from bs4 import BeautifulSoup 


# Datei öffnen und HTML parsen 

soup = BeautifulSoup ( 
open (dateiname, encoding="utf-8"), 
'Ixml' 


# Alle Tabellen finden, vierte Tabelle rausziehen 
tables = soup.select ('table') 
table de = tables[3] 


# Alle Zeilen in Tabelle finden 

# Die erste Zeile (ohne Inhalte) entfernen 
rows = table de.select('tr') 

rows = rows[1:] 


8 Alternativ kann man mit find_all() oder find () auch Elemente nach Namen oder At- 
tributen durchsuchen oder sich mit Funktionen wie next_element() und previous _ 
element () durch den Baum navigieren. 


° Da die Indizierung in Python bei 0 beginnt, ist die vierte Tabelle auf Position 3. 
10 Siehe Richardson (2020; https://www.crummy.com/software/BeautifulSoup/bs4/doc/). 
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Aus allen gefundenen Zeilen, die als Liste im neu erstellten Objekt rows abge- 
legt sind, werden anschließend die Inhalte ausgelesen. In jedem Durchlauf der For- 
in-Schleife werden zunächst über select ('td') alle Spalten innerhalb einer 
Zeile gefunden und in der Liste cols abgelegt. Auf eine einzelne Spalte wird wie 
schon bei den Tabellen über Indizes zugegriffen. Der Text des Elements lässt sich 
über . text extrahieren und mit . strip () so bereinigen, dass Leerzeichen oder 
Markierungen von Umbrüchen am Anfang und am Ende entfernt werden. 

Um die extrahierten Daten einzusammeln, wird zunächst ein leeres Dictionary 
item angelegt. Innerhalb eines Durchlaufs der For-Schleife wird das Dictionary 
mit Einträgen gefüllt und der Liste results hinzugefügt. 


# Liste, um die Ergebnisse abzulegen 
results = [] 


# Alle Zeilen abarbeiten... 


for row in rows: 


# Alle Spalten innerhalb einer Zeile finden 
cols = row.select('td') 


# Text aus Spalten auslesen 
item = {} 


item['rang'] = cols[0].text.strip() 

item['titel'] = cols[1].text.strip() 

item['auflage'] = cols[2].text.strip() 
[ [3 


item['gruppe'] = cols[3].text.strip() 
# Das dict zur results-Liste hinzufügen 
results .append (item) 


Nach dem Ausführen dieses Abschnitts liegen die extrahierten Inhalte in der 
Liste results vor. Im Beispiel werden die ersten vier Spalten der Tabelle ausge- 
lesen. Versuchen Sie, weitere Daten auszulesen oder aufzubereiten und in der 
results-Liste abzulegen! 

Hilfreich könnte es beispielsweise sein, die Links auszulesen, durch die man 
bei einem Klick auf den Titel zum entsprechenden Wikipedia-Artikel gelangt. 
Diese Links sind innerhalb der zweiten Spalte in den <a>-Elementen enthalten, 
genauer in den hre f-Attributen. Da aus jeder Spalte nur ein einzelnes Element 
ausgelesen werden soll, nicht eine ganze Liste, wird die select _ one ()-Funk- 
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tion verwendet. So spart man sich den Zugriff über die Indizes. Aus diesem Ele- 
ment kann man mit get ('href') dann die URL auslesen: 


link = cols[1].select_one('a') 


if link: 
item['link'] = "www.wikipedia.org" + \ 
link.get ('href') 
else: 
item['link'] = None 


Grundsätzlich muss man sich darauf einstellen, dass innerhalb einer Website 
haufig nicht alle Tabellen, Listen oder Unterseiten gleich aufgebaut sind und dass 
sich Webseiten immer wieder ändern. Damit ein Skript nicht jedes Mal abbricht, 
wenn man auf solch eine Hürde stößt, baut man Fehlerbehandlungen ein. Im vor- 
angegangenen Beispiel ist eine einfache Variante umgesetzt: Nicht alle Artikel 
enthalten einen Link, der Zugriff über link.get () würde dann zu einem Fehler 
führen. Deshalb wird mit einer If-else-Verzweigung geprüft, ob das Element er- 
folgreich ausgelesen werden konnte. 

Eine universelle Möglichkeit der Fehlerbehandlung bieten Try-except-Blöcke. 
Innerhalb des Try-Blocks wird zunächst der Code formuliert, der ausgeführt wer- 
den soll. Wirft dieser einen Fehler aus, wird zum Except-Block gesprungen. In 
diesem ist festgelegt, wie alternativ verfahren wird — etwa ob die entsprechende 
Funktion übersprungen wird oder ein leerer Wert zurückgegeben werden soll. 
Bauen Sie das Beispiel einmal entsprechend um! 


Schritt 3: Daten abspeichern Im letzten Schritt geht es darum, die Daten für die 
weitere Analyse abzuspeichern. Mit der pandas-Bibliothek wandeln Sie die Liste 
in eine Tabelle um und können diese dann als CSV-Datei abspeichern. Damit die 
Datei leichter mit Excel geöffnet werden kann, geben Sie das Semikolon als Trenn- 
zeichen an: 


Bibliotheken einbinden 
import pandas as pd 


Liste mit Dictionaries in Dataframe umwandeln 
results = pd.DataFrame (results) 


Vorschau des Dataframe ausgeben 
display (results) 
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# Dataframe als CSV-Datei abspeichern 
results.to_csv( 

"results.csv", 

sep=";", index=False 


Wenn dieser Schritt funktioniert hat, dann sehen Sie dank der Funktion 
display () im Notebook einen Auszug aus der Tabelle mit den extrahierten Da- 
ten. Außerdem sollte im Verzeichnis von JupyterLab eine CSV-Datei liegen. Öff- 
nen Sie die Datei mit einem Texteditor und mit einem Programm wie Excel, um 
den Aufbau zu verstehen. 

Wenn Sie das Beispiel an andere Zwecke anpassen und weiter ausbauen, etwa 
um in einer Schleife mehrere Seiten nacheinander automatisch herunterzuladen, 
wird es schnell unübersichtlich. Sie können die Übersichtlichkeit verbessern, in- 
dem Sie Teile des Codes in eigene Funktionen verpacken (® Repositorium). Für 
umfangreichere Projekte lohnt sich darüber hinaus die Arbeit mit speziell dafür 
entwickelten Bibliotheken. Empfehlenswert ist hierfür das Framework Scrapy.!! 


Alternative: Webscraping mit R Die gleiche Vorgehensweise lässt sich auch mit 
R (siehe Abschn. 5.1) umsetzen. Die benötigten Bibliotheken sind tidyverse (Wick- 
ham 2019b) und writex! (Ooms und McNamara 2021) für die Verarbeitung und das 
Abspeichern der Ergebnisse. Über die Bibliothek rvest (Wickham 2022b) kann 
eine Seite heruntergeladen und geparst werden: '? 


# Packages 

library (tidyverse) 
library (writexl) 
library (rvest) 


# Seite herunterladen und parsen 
url <- "https://de.wikipedia.org/wiki/ 
Liste auflagenst%C3%A4rkster Zeitschriften" 
html <- read_html (url) 
html 


!! Siehe Zyte (2022; https://scrapy.org/). 


'? Aus Darstellungsgründen wurde die Zeichenkette umgebrochen und mit dem Umbruchzei- 
chen | markiert. In R sollte der Code ohne Umbruch eingegeben werden. 
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Das erzeugte htm1-Objekt ist vergleichbar mit dem soup-Objekt von Beauti- 
ful Soup. Es kann nun mit ähnlichen Funktionen auf die Elemente im Document 
Object Model (DOM) zugegriffen werden. Besonders einfach ist der Zugriff mit 
der Funktion html_nodes (). Diese Funktion erwartet als ersten Parameter 
das htm1-Objekt und als zweiten Parameter einen CSS-Selektor.'” Um auf alle 
<table>-Elemente zuzugreifen, kann man den CSS-Selektor table verwenden: '* 


el_tables <- html_nodes (html, "table") 


Im Sinne der Tidyverse-Logik ist besonders bei mehreren Verarbeitungsschrit- 
ten der Pipe-Operator %>% hilfreich — etwa wenn zunächst die Elemente und im 
nächsten Schritt dann deren Attribute oder Inhalte extrahiert werden. Die Pipe 
schiebt im folgenden Beispiel das Ausgangsobjekt html als ersten Parameter in 
die Funktion html_nodes (). Diese Formulierung ist äquivalent zur Variante 
ohne Pipe, mit dem Vorteil, dass das Resultat bei Bedarf über das Anhängen weite- 
rer Pipes in weitere Funktionen geschoben werden kann. 


el tables <- html %>% 
html_nodes ("table") 


Im Objekt el_tables liegt nun eine Liste mit allen <table>-Elementen 
vor — der Name „el_tables“ ist selbst gewählt. Interessieren nicht alle Tabellen, 
kann man den entsprechenden Listeneintrag über eckige Klammern auswählen, die 
vierte Tabelle enthält die Angaben zu deutschen Zeitschriften. Im nächsten Schritt 
gelangt man wieder über html_nodes () an die Zeilen der Tabelle: 


ae 


el_ rows <= el tables[4] %> 
html_nodes ("tr") 


Aus den einzelnen Zeilen können nun in einem Loop die Werte ausgelesen wer- 
den. Die Funktion html_text () erlaubt dabei Zugriff auf den Textinhalt der 
Elemente, während mit html_attr () einzelne Attribute extrahiert werden. So 


83 Die Funktion unterstützt auch XPath, siehe die Hilfe. Die Hilfe erreichen Sie in RStudio, 
nachdem der Cursor auf der Funktion platziert wurde, mit der Taste F1. 

14 In komplexeren Fällen — beispielsweise wenn es verschiedene Arten von Tabellen gibt — ist 
es häufig notwendig, dass man in den Selektoren zusätzlich Angaben zu Klassen oder IDs 
macht, um die gewünschten Elemente anzusteuern. Dafür wird die Bezeichnung der Klasse 
mit einem Punkt an das Element angehängt, die Bezeichnung der ID mit einem Doppelkreuz 
#. So könnte man beispielsweise die Tabelle mit der id="123" über den CSS-Selektor 
table#123 ansteuern. 
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lässt sich neben dem Link auch der Text aus dem Element <a href="/wiki/ 
ADAC _Motorwelt" title="ADAC Motorwelt">ADAC Motorwelt</a> 


auslesen. 


Um alle Werte der einzelnen Zeilen einzusammeln, wird zunächst ein leeres 
Tibble results angelegt. Innerhalb eines jeden Durchlaufs wird dann ein Tibble 
magazine mit nur einer einzigen Zeile erstellt, welches mitbind_rows () fort- 


laufend an results angehängt wird: 


Versuchen Sie, noch weitere Spalten auszulesen und in der results-Liste 


abzulegen! 


# Leeres Tibble zum Sammeln der Ergebnisse 
results <- tibble() 


# Alle Zeilen abarbeiten 
for (el _ row in el _rows) { 


# Alle Spalten innerhalb einer Zeile finden 
el_cols <- el_row %>% 
html_nodes ("td") 


# Text aus der zweiten Spalte auslesen 
titel = el _cols[2] %>% 
html_text () 


# URL aus dem Attribut 'href' auslesen 
link = el cols[2] % 
html_nodes("a") % 
html_attr('href') 


# In einem neuen Tibble ablegen... 
magazine <- tibble( 


"titel' = titel, 
'link' = link 
) 
# ... und zu den Ergebnissen hinzufügen 


results <- bind_rows (results, magazine) 
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7.1.2 Automatisierung des Webbrowsers 


Eine weitere Möglichkeit zur Datenerhebung im Web besteht darin, den Browser zu 
automatisieren. Der Browser wird dabei wie eine Marionette durch Code ferngesteu- 
ert. Das folgende Beispiel verwendet Python, um den Browser Firefox zu automati- 
sieren. Zwischen dem Skript und dem Browser sitzen drei weitere Komponenten 
(Abb. 7.2). Der Browser wird durch den GeckoDriver um eine Programmierschnitt- 
stelle erweitert, auf die dann die Automatisierungssoftware Selenium (Thought- 
Works 2022) zugreift. Die Entwicklung des Skripts, über welches Selenium ange- 
steuert wird, findet in der Entwicklungsumgebung Jupyter-Notebook statt. Diese 
Pipeline ist nur ein Beispiel. Es können auch andere Browser wie Chrome oder an- 
dere Programmiersprachen und Entwicklungsumgebungen eingesetzt werden. 

Die wesentliche Komponente zur Automatisierung des Browsers ist Selenium. 
Diese Software wird unter anderem zur Entwicklung von Webseiten eingesetzt, um 
automatisiert neu entwickelte Funktionen zu testen. Es lässt sich damit aber auch 
sehr gut Webscraping betreiben. Die Installation für Python nimmt man am besten 
auf der Kommandozeile über den Paketmanager pip vor. Wenn Sie mit JupyterLab 
arbeiten, können Sie direkt von dort ein Terminal öffnen (FILE > NEW LAUNCHER): 


pip install selenium 
Natürlich benötigen Sie auch einen Browser, der ferngesteuert werden kann. 


Falls noch nicht vorhanden, installieren Sie Firefox.'° Alternativ können Sie auch 
Google Chrome verwenden, müssen dann aber in den nächsten Schritten statt des 


Jupyter- Selenium Gecko- Web Browser 
Notebook WebDriver Driver Firefox 


Programmie- Entwicklungs- Automati- API für den Browser als 
rung (Code) umgebung sierung des Browser ‚Marionette‘ 
Browsers 


Abb. 7.2 Komponenten bei der Automatisierung eines Browsers am Beispiel von Firefox. 
(Quelle: eigene Darstellung) 


'S Siehe Mozilla (2022; https://www.mozilla.org/de/firefox/new/). 
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GeckoDriverManager den ChromeDriverManager einbinden. Diese Driver stellen 
die Schnittstelle zwischen Selenium und dem Browser dar, bei der Installation hilft 
der Webdriver Manager: '‘ 


pip install webdriver manager 


Starten Sie anschließend JupyterLab und legen Sie ein neues Python-3- 
Notebook an. Der passende Driver kann nun installiert und eingebunden werden: 


from selenium.webdriver.firefox.service \ 
import Service 

from webdriver manager.firefox \ 
import GeckoDriverManager 


driver = Service (GeckoDriverManager () .install()) 


Sobald die Software installiert ist, sind die Schritte im Prinzip die gleichen wie 
beim klassischen Webscraping. Zunächst werden Seiten aufgerufen, dann Daten 
extrahiert und diese Daten werden dann abgespeichert. 


Schritt 1: Browser fernsteuern Im ersten Schritt werden der Webbrowser gestar- 
tet und eine Seite geöffnet: 


Programmbibliotheken laden 
from selenium.webdriver .firefox.service \ 
import Service 


from webdriver manager.firefox \ 
import GeckoDriverManager 


Driver initialisieren 


driver = Service (GeckoDriverManager () .install()) 


Browser starten 
browser = webdriver.Firefox (service=driver) 
browser.get ("https: //www.google.de/") 


Daraufhin sollte sich ein Firefox-Fenster geöffnet haben, in dem die Start- 
seite von Google aufgerufen wird. Sie können nun manuell in diesem Browser 
surfen, das Surfen automatisieren oder zwischen diesen beiden Modi hin und her 


16 Zur Installation siehe Pirogov (2022; https://pypi.org/project/webdriver-manager/). 
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wechseln. So bietet es sich beispielsweise zu Beginn an, den Datenschutzbedin- 
gungen, die sich beim erstmaligen Aufrufen von Google öffnen, manuell zuzu- 
stimmen und erst dann die weitere Suche zu automatisieren. 

Um automatisiert Suchbegriffe in den Suchschlitz einzugeben, muss der Such- 
schlitz eindeutig identifiziert werden. Wie beim klassischen Webscraping schauen 
Sie dazu in den Quelltext der Seite, zum Beispiel über die Entwicklerkonsole. Kli- 
cken Sie mit der rechten Maustaste auf den Suchschlitz und wählen Sie ELEMENT 
UNTERSUCHEN. Es handelt sich bei diesem Eingabefeld um ein HTML-Element 
mit dem Namen input. Dieses Element kann auf verschiedene Weise identifiziert 
werden, beispielsweise durch die ID 1st-ib oder den Namen q (Abb. 7.3). 

Selenium stellt mehrere Funktionen bereit, um mit den Elementen einer Seite zu 
arbeiten — Sie sollten sich dazu unbedingt die Dokumentation ansehen.” Das fol- 
gende Beispiel verwendet die Funktion find _ element () in Kombination mit 
By . Name zur Identifizierung des Suchschlitzes. Zur Simulation der Tastatureingabe 
wird die Funktion send_keys () verwendet. Vorher wird festgelegt, dass Sele- 
nium einige Zeit warten soll, falls das gesuchte Element nicht verfügbar ist. Das ist 
notwendig, weil das Laden der Seite einen Moment dauert: 


x (> Debug: {} Stilbearbeit @ Laufzeitane k Speicl = Netzwerkan: & © 
HTML durchsuchen é bl | 
<div id="sb_ifc@" class="sbib_b" dir="1tr"> N 


«div id="gs_lc®" style="position: relative;"> 
<input id="l1st-ib" class="gsfi lst-d-f" maxlength="2048" 
name="q" autocomplete="off" title="Suche" value="" aria- 
label="Si'che" aria-haspopup="false" role="combobox" aria- 


autocomple*e="list"” style="border: medium none; padding: 

@px; margin: @px; height: auto..tion: absolute; z-index: 6; 

left: @px; outline: medium none;" dir="ltr" 

spellcheck="false" type="text"> ev 

<div id="gs_sc@" class="gsfi" style="background: 
transparent none repeat scroll 8% 8%: color: tra. absolute: “ 

ibtd > div®sfdiv.sbibod.sbfcn. div.lst-c > div.gstlO.sbib_a div&sb_if > 


Abb. 7.3 Quelltext eines Eingabefelds. (Quelltext von https://www.google.de. Quelle: ei- 
gene Darstellung) 


17 Eine übersichtliche Einführung findet sich bei Muthukadan (2018; http://selenium-python. 
readthedocs.io/api.html). 
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By.Name und By.Id importieren 
from selenium.webdriver.common.by import By 


Beim Zugriff auf Elemente der Seite bis zu 
10 Sekunden warten, sodass die Seite laden kann 
browser.implicitly wait (10) 


Suchschlitz finden 
suchschlitz = browser.find element (By.NAME, "q") 


In den Suchschlitz schreiben 
suchschlitz.send_keys("Wie macht ein ") 


Abschicken 


suchschlitz.submit () 


Eingabefelder und Buttons sind auf Webseiten in der Regel in sogenannte For- 
mulare eingebettet. Indem man das Formular abschickt, werden alle eingegebenen 
Inhalte an den Server geschickt. Die letzte Zeile schickt das Formular ab, das mit 
dem ausgewählten Eingabefeld in der Google-Suche verbunden ist. Dafür verfügt 
das input-Element (das im Objekt suchschlitz abgelegt ist) über die Funk- 
tion submit ().. Alternativ zum Abschicken über submit () , welches dem Drü- 
cken der Enter-Taste gleichkommt, könnte auch der Klick auf den Button simuliert 
werden. In diesem Fall müssten Sie analog zum Suchschlitz den Suchbutton iden- 
tifizieren. Für das gefundene Element könnte anschließend die click () -Funk- 
tion anstelle der submit () -Funktion ausgeführt werden. 

Webscraping kann übrigens auch so durchgeführt werden, dass der Browser 
unsichtbar bleibt, das heißt, die Befehle können ausgeführt werden, ohne ein 
Browserfenster zu öffnen. Ein solcher Modus wird headless genannt und beschleu- 
nigt den Prozess in der Regel. Weitere Informationen dazu finden Sie in der Doku- 
mentation von Selenium. 


Schritt 2: Inhalte der Seite verarbeiten Auch um den Inhalt der Seite zu ver- 
arbeiten, müssen wieder die gewünschten Elemente über Namen oder IDs iden- 
tifiziert werden. Dann kann auf den Inhalt der Elemente über die text-Eigen- 
schaft zugegriffen werden. Im folgenden Beispiel wird außerdem gezeigt, wie 
aus diesem Text mit einem regulären Ausdruck (siehe Abschn. 4.1.1) die Zahl 
ausgelesen wird. 
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# Anzahl der Ergebnisse auslesen 
ergebnisse = browser.find element ( 
By.ID, 'result-stats' 


print (ergebnisse.text) 


# Bibliothek für reguläre Ausdrücke 


# zum Verarbeiten von Zeichenketten laden 


import re 


# Zahl mit regulärem Ausdruck extrahieren 
anzahl = re.search ( 
'([0-9\.]+) Ergebnisse', 
ergebnisse.text 
).group (1) 


# Punkt aus Zeichenkette entfernen 
anzahl = anzahl.replace('.', '') 


# In eine Ganzzahl (int) umwandeln 
anzahl = int (anzahl) 
print (anzahl) 


Automatisierung wird dann sinnvoll, wenn mehrere Suchabfragen durchgeführt 
oder mehrere Seiten ausgelesen werden sollen. Die Ergebnisse können analog zur 
Vorgehensweise beim klassischen Webscraping in einer Liste bestehend aus Dicti- 
onaries abgelegt werden. Vorausgesetzt der Webbrowser wurde wie bislang be- 
schrieben mit Selenium gestartet, lässt sich das gut über eine For-in-Schleife 
umsetzen: 


# URL und Liste mit Keywords festlegen 

url = "https://www.google.de/" 

keywords = ["Computational", "Statistical", \ 
"Interpretive"] 


# Leere Liste für Suchergebniss rstellen 
results = [] 
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# Für jedes Keyword die Google-Suche durchführen, 
# Anzahl der Ergebnisse auslesen und 
# in der results-Liste ablegen 
for keyword in keywords: 
print (keyword) 
browser.get (url) 


suchschlitz = browser.find element (By.NAME, "q") 
suchschlitz.send_keys (keyword) 
suchschlitz.submit () 


anzahl = browser.find element ( 
By.ID, 'result-stats' 
},text 


result = {'keyword':keyword, 'count':anzahl} 
results.append (result) 


results 


Eine der größeren Herausforderungen besteht darin, festzustellen, wann eine 
Seite fertig geladen ist, sodass die benötigten Elemente zur Verfügung stehen. Eine 
grundsätzliche Einschränkung besteht auch darin, dass mit Selenium (bislang) 
keine http-Statuscodes ausgelesen werden können. So weiß man nicht, ob eine 
Seite überhaupt geladen wurde oder ob eine Fehlermeldung vorliegt. Deshalb 
sollte man Vorsichtsmaßnahmen einbauen. 

Beim Zugriff auf einzelne Elemente wird dank der bislang verwendeten Anwei- 
sung browser.implicitly wait (10) so lange gewartet, bis das Element 
geladen wurde. Das gilt zum Beispiel für die Funktion find_element () . Wenn das 
Element nach dem angegebenen Timeout von 10 Sekunden nicht gefunden wurde, 
wird das Skript abgebrochen. Schwierig wird diese Lösung allerdings immer dann, 
wenn das gesuchte Element auch schon auf der zuletzt aufgerufenen Seite vorhan- 
den war. Denn in diesem Fall wird möglicherweise gar nicht der neue, sondern der 
alte Inhalt gefunden. Zur Lösung dieses Problem gibt es sehr verschiedene An- 
sätze. Die folgende Funktion fragt beispielsweise wiederholt den Status der Seite 
über JavaScript ab: 


# Funktion definieren, um so lange zu warten, 
# bis die Seite geladen ist 
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import time 
def waitForReadyState (browser, timeout = 15): 
start_time = time.time () 


while time.time() < start_time + timeout: 
page state = browser.execute script ( 
"return document.readyState;' 
) 
if page_state == 'complete': 
return True 


time.sleep (0.1) 
return False 


Die Funktion könnte über wait ForReadyState (browser) jedes Mal vor 
dem Zugriff auf ein Element aufgerufen werden, wobei der Parameter browser 
auf das vom Webdriver bereitgestellte Browser-Objekt verweist. Innerhalb der 
Funktion wird mittels execute _script () JavaScript im Kontext des Browsers 
ausgeführt. JavaScript wird häufig für die Interaktion auf Webseiten eingesetzt, 
hiermit lässt sich tief in die Funktionsweise einer Webseite eingreifen. Auch wenn 
Sie vielleicht im ersten Moment noch nicht alle Details verstehen, ist dies ein erster 
Ansatz, falls Sie selbst bei Ihren Experimenten auf das Problem stoßen, warten zu 
müssen. Weitere Techniken zur Überprüfung des Ladestatus bestehen darin, den 
alten und den neuen Seiteninhalt zu vergleichen oder so lange zu warten, bis ein 
Element in der alten Seite ungültig (engl. stale) wird — bei der Umsetzung von 
Webscraping ist also etwas Kreativität gefragt." 


Schritt 3: Daten abspeichern Wie schon im Abschnitt zum klassischen Webscra- 
ping beschrieben, können die Ergebnisse mit pandas wieder in einen Dataframe 
umgewandelt und als CSV-Datei abgespeichert werden. 


# Bibliotheken einbinden 
import pandas as pd 


!® Weitere Lösungen finden sich insbesondere auf Stack Overflow, etwa bei Apogne (2014; 
https://stackoverflow.com/questions/26566799/how-to-wait-until-the-page-is-loaded-with- 
selenium-for-python). 
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# Liste mit Dictionaries in DataFrame umwandeln 
results = pd.DataFrame (results) 


# DataFrame als CSV-Datei abpseichern 
results.to_csv('results.csv', sep = ";", \ 
index = False) 


Mitunter lohnt es sich, den gesamten Quelltext der Seite für spätere Analysen 
abzuspeichern. Dieser Quelltext unterscheidet sich in einem entscheidenden Punkt 
von der HTML-Datei, die beim klassischen Webscraping heruntergeladen wird. Es 
handelt sich hier um den generierten Quelltext einer Seite, der durch Eingaben in 
Formulare oder durch interaktive Skripte (JavaScript) verändert werden kann. So 
kommt es beispielsweise vor, dass Kommentare auf Zeitungsseiten direkt in den 
HTML-Text eingebunden werden, die Antworten zu den Kommentaren allerdings 
nachgeladen werden, sobald die Leser:innen auf einen Button wie Antworten zu 
diesem Kommentar anzeigen klicken. Diese Antworten werden also interaktiv ge- 
laden und lassen sich nicht bereits über das bloße HTML-Grundgerüst erheben. 
Der generierte Quelltext entspricht ganz genau dem sichtbaren Inhalt der Seite, ein 
Vorteil der Automatisierung über Selenium. Dieser Quelltext wird über das Attri- 
but page_source des Webdriver-Objekts bereitgestellt: 


html = browser.page source 


Alternativ kann auch der Quelltext innerhalb einzelner Elemente ausgelesen 
werden. Selenium stellt dafür innerhalb des Document Object Model (DOM) eine 
Zugriffsmöglichkeit auf die innerHTML-Eigenschaft von Elementen bereit: 


body = browser.find element (By.TAG NAME, 'body') 
html = str(body.get_attribute('innerHTML') ) 


Um den Quelltext schlieBlich abzuspeichern, wird eine Datei zum Schreiben 
(Parameter "w") geöffnet: 


with open ( 

"meineseite.html", "w", encoding="utf-8" 
) as file: 

file.write (html) 
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Da jede Webseite anders aufgebaut ist, muss man sich für die Extraktion der 
Daten in die Struktur einer Seite eindenken. Will man viele verschiedene Seiten 
erheben, dann braucht man dagegen eine allgemeinere Technik, um irrelevante 
Teile wie das Menü, Werbung oder den Footer einer Seite zu entfernen. Für dieses 
sogenannte Boilerplate Removal gibt es viele verschiedene Ansätze und auch spe- 
zialisierte Python-Packages wie trafilatura (Barbaresi 2022; ® Repositorium). 

Zur Dokumentation der Datenerhebung lassen sich darüber hinaus Screenshots 
der Seite automatisch abspeichern, wobei nur der sichtbare Bereich erfasst wird: 


browser.save screenshot ('meineseite.png') 


Mit Firefox können außerdem ganze Seiten oder ausgewählte Teile einer Seite 
als Screenshot gespeichert werden. Dazu wird zunächst das gewünschte Element 
identifiziert, zum Beispiel das <body>-Element, um die gesamte Seite zu erfas- 
sen. Da Screenshots Pixeldaten in Binärform enthalten, muss die Datei mit dem 
Parameter "wb" (= write binary) geöffnet werden: 


body element = browser.find element (\ 
By.TAG NAME, 'body') 
body png = body element.screenshot_as_ png 


with open ("meineseite.png", "wb") as file: 
file.write (body_png) 


Webscraping über die Automatisierung des Browsers besticht dadurch, dass 
hier das Surfen einer Nutzerin oder eines Nutzers simuliert wird. Man kann sich 
automatisiert bei Seiten anmelden sowie manuelles und automatisiertes Surfen 
kombinieren. Die Seiten sehen nicht anders aus als bei der manuellen Internetnut- 
zung. Im Gegensatz zum klassischen Webscraping ist jedoch insgesamt mehr Ge- 
duld erforderlich und auch die Ersteinrichtung kann einige Zeit in Anspruch nehmen. 


Alternative: Selenium mit R Auch mit R und RStudio können Browser über 
Selenium ferngesteuert werden (® Repositorium). Dazu installieren Sie das 
Package RSelenium (Harrison und Kim 2020). Wenn Sie es anschließend laden, 
werden bei der ersten Verwendung alle weiteren benötigten Komponenten automa- 
tisch nachinstalliert: 


library (RSelenium) 
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Nach dem Laden der Bibliothek werden ein Selenium-Server und ein fernge- 
steuerter Browser gestartet: 


selenium <- rsDriver (browser = "firefox", 
port = 4566L) 


server <- seleniumSserver 
browser <- selenium$client 


Analog zu Python, können nun Seiten aufgerufen werden: 
browser$navigate ("http: //www.google.com") 
Der Zugriff auf Eingabefelder gestaltet sich ebenfalls ähnlich: 


suche <- browser$findElement (using = 'name', 'q') 
sucheSsendKeysToElement (list ("Wie macht ein ")) 
suche$submitElement () 


Die möglichen Befehle und Parameter finden Sie in der Hilfe des Packages 
RSelenium. Die Befehle zur Interaktion mit dem Browser sind unter „remoteDriver- 
Class“ dokumentiert, die Befehle zum Auffinden, Auslesen und Interagieren mit 
den Elementen einer Seite unter „webElement-class“. Am Ende sollten der Brow- 
ser und der Server wieder geschlossen werden: 


browser$close () 
serverSstop () 


7.1.3 Spezialisierte Programme und Plattformen 


Um die Komplexität von Webscraping zu bewältigen und den Programmierauf- 
wand zu reduzieren, stehen mittlerweile vielfältige Programme zur Verfügung 
(siehe Tab. 7.1). Diese lassen sich danach einteilen, wie stark die notwendigen 
Skripte selbst entwickelt werden müssen oder wie sehr auf die Leistung von Drit- 
ten zurückgegriffen wird: 


e Mit Programmierbibliotheken wie Scrapy für Python werden eine Vielzahl 
von Funktionen zum Webscraping bereitgestellt und einige der gängigen He- 
rausforderungen umschifft. Für andere Programmiersprachen gibt es ebenfalls 
hilfreiche Bibliotheken, etwa Apify für JavaScript. 
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e Mit lokalen Programmen wie HTTrack oder Facepager kann der erste Schritt, 
das Herunterladen der Quelltexte, umgesetzt werden. Gerade für groß angelegte 
Datenerhebungen ist dies eine Erleichterung, da Seiten auch parallel herunter- 
geladen werden können. Programme wie ScrapeBox oder Facepager lesen dar- 
über hinaus gezielt Links aus und können damit als Webcrawler eingesetzt wer- 
den. Wenn umfangreiche Funktionen zum Extrahieren und Analysieren der 
Daten benötigt werden, ist beispielsweise RapidMiner eine Option. 

e Die bislang genannten Programme werden einmal installiert und laufen dann auf 
dem lokalen Computer. Bei webbasierten Plattformen wie ScrapeBot findet die 
Datenerhebung und -analyse dagegen auf einem Server statt. Nicht immer ist so- 
fort erkennbar, dass es sich um einen serverbasierten Dienst handelt. So wird das 
Chrome Plugin von Webscraper.io beispielsweise lokal im Browser installiert, 
dennoch findet die Datenaufbereitung auf dem Server statt. Von Vorteil ist in der 
Regel die hohe Performanz serverbasierter Dienste, bedingt durch eine gute Inter- 
netanbindung und parallelisierte Prozesse. Neben kostenlosen Einstiegstarifen 
werden für höhere Leistungsanforderungen mitunter Entgelte erhoben. Auch die 
Bedienung ist bei kommerziellen Anbietern durchaus komfortabel, denn viele 
technische Details verschwinden hinter gefälligen Oberflächen. Allerdings gibt 
man dabei insofern die Hoheit über den Erhebungsprozess auf, als dass die kon- 
krete Umsetzung nicht mehr nachvollzogen werden kann und auch die Daten 
beim jeweiligen Anbieter gespeichert werden. Diese Vorgehensweise sollte im 
wissenschaftlichen Kontext gut überlegt sein. Auch im akademischen Umfeld 
werden Webcrawler angeboten. Eine vielfältige Sammlung spezialisierter Scraper 
bietet etwa die Digital Methods Initiative (DMI) aus Amsterdam. 


Tab. 7.1 Beispiele für Programmbibliotheken, Programme und Cloud-Dienste zum 
Webscraping 


Programm Funktionen 
Bibliotheken und Frameworks 
Apify SDK JavaScript/Node.js-Bibliothek für Webscraping (Apify Technologies 


2022; https://sdk.apify.com) 
rvest und httr R-Pakete für Webscraping (Wickham 2022b; https://github.com/ 
tidyverse/rvest) 
(Wickham 2022a; https://github.com/r-lib/httr) 
Scrapy Python-Bibliothek fiir Webscraping (Zyte 2022; https://scrapy.org) 
Apache Nutch | Tool für die Kommandozeile (Apache Software Foundation 2021; 
https://nutch.apache.org/) 


(Fortsetzung) 
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Tab. 7.1 (Fortsetzung) 


Programm Funktionen 

Desktop-Programme 

Facepager Automatisiertes Herunterladen von Dateien, Webscraping und 
Extrahieren von Links (Jünger und Keyling 2022; https://github.com/ 
strohne/Facepager) 

HTTrack Lokale Spiegelung einer Webseite (Roche 2017; https://www.httrack. 

Website Copier | com/) 

RapidMiner Kommerzielles Analyseprogramm mit umfangreichem 


Funktionsumfang unter anderem fiir Webcrawling, Scraping und 
Analyse (RapidMiner 2021; https://rapidminer.com) 


SocSciBot Web Crawler zur Erhebung und Analyse von Links und Texten 
(Statistical Cybermetrics Research Group 2016; http://socscibot.wlv. 
ac.uk) 

ScrapeBox Automatisiertes Herunterladen von Dateien und Extraktion von Links 


(ScrapeBox 2022; http://www.scrapebox.com) 

Serverbasierte Anwendungen 

DMI Tools Spezialisierte Webscraper der Digitial Methods Initiative, das heißt aus 
dem akademischen Kontext (Helmond 2020; https://wiki. 
digitalmethods.net/Dmi/ToolDatabase) 


Octoparse Kommerzieller Webscraping-Dienst mit umfangreichen Funktionen 
(Octopus Data 2022; https://www.octoparse.com) 
ScrapeBot Sogenanntes agentenbasiertes Testen, bei dem Seiten regelmäßig 


überprüft werden (Haim 2021; https://github.com/MarHai/ScrapeBot) 
Webscraper.io | Erweiterung für den Browser Chrome, wobei das Webscraping auf dem 
Server des Anbieters stattfindet (Web Scraper 2021; https://webscraper.io) 


Anmerkung: Beachten Sie, dass Dienste kommen und gehen. Insbesondere im wissenschaft- 
lichen Kontext sollte der Einsatz kommerzieller Dienste gut überlegt sein. Quelle: Eigene 
Darstellung 


Auch wenn die Arbeit mit spezialisierten Programmen und Plattformen effizient 
ist, sind ein Grundverständnis von Webscraping und eigene Erfahrungen mit der 
Entwicklung von Webscrapern aus wissenschaftlicher Sicht wichtig. Denn dieses 
Wissen hilft nicht nur bei der Formulierung der Anforderungen, sondern vor allem 
bei der Einschätzung der Datenqualität und von typischen Fehlerquellen. 

Zudem müssen rechtliche und ethische Aspekte reflektiert werden, vor allem das 
Urheberrecht und der Datenschutz. Webscraping ist tendenziell eine unhöfliche Art der 
Datenerhebung, da es die Server belastet. Einige Anbieter schließen Webscraping des- 
halb explizit in ihren Nutzungsbedingungen aus und ergreifen technische Maßnahmen 
zur Verhinderung von Webscraping. Hinweise zur Ethik finden Sie beispielsweise bei 
Thelwall und Stuart (2006) und eine rechtliche Beurteilung bei RatSWD (2019). 
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Übungsfragen 


1. Fassen Sie kurz zusammen, welche Schritte beim Webscraping vollzogen 
werden müssen! 

2. Worin unterscheiden sich klassisches Webscraping und Browserautoma- 
tisierung? 

3. Wie unterscheidet sich der heruntergeladene Quelltext einer Seite vom ge- 
nerierten Quelltext? 

4. Wie werden beim Webscraping die einzelnen Elemente einer Webseite iden- 
tifiziert? Öffnen Sie eine Seite Ihrer Wahl, wählen Sie darauf ein Element 
aus und überlegen Sie sich eine Möglichkeit, dieses Element zu adressieren! 

5. Mit welcher Python-Bibliothek können HTML-Texte geparst werden, um 
Daten zu extrahieren? 

6. Was ist mit Boilerplate Removal gemeint? 


7.2 Application Programming Interfaces (APIs) 


Application Programming Interfaces (APIs) sind Programmierschnittstellen, über 
die festgelegt wird, wie zwei Programme miteinander interagieren können (Ja- 
cobson et al. 2012, S. 5). Will beispielsweise ein Immobilienportal seine Häuser 
und Wohnungen auf einer Karte anzeigen und eine Suche nach Orten umsetzen, 
kann es dafür die Karte von Google Maps über die Google Maps API einbinden. 
Diese Schnittstellen können auch Wissenschaftler:innen nutzen, um Daten abzu- 
fragen oder zu analysieren. Dazu werden meistens sogenannte REST-APIs'” ver- 
wendet, die ihre Dienste über das Web anbieten. Nicht immer sind mit APIs aus- 
schließlich solche webbasierten Dienste gemeint, das vorliegende Kapitel 
beschränkt sich aber auf REST-APIs, da sie sich gut für den Einstieg in die Welt 
der automatisierten Datenerhebung eignen. Die Vorgehensweise ist dabei immer 
gleich: Zunächst wird eine Anfrage an eine API gestellt. Zum Beispiel wird ein 
Ortsname an den Google-Maps-Server geschickt (Input). Die API verarbeitet die 
Anfrage und liefert ein Ergebnis zurück, zum Beispiel die Geokoordinaten des 
Ortes (Output). Diese Koordinaten können dann verwendet werden, um passende 


REST steht für Representational State Transfer und bezeichnet unter anderem das Grund- 
prinzip des Web: einzelne Ressourcen lassen sich über festgelegte URLs ansprechen (Fiel- 
ding 2000). Anwendungen wie etwa Messengerdienste verwenden teilweise eigene API- 
Protokolle, beispielsweise verwendet Telegram das speziell für die eigenen Zwecke 
entworfene MTProto Mobile Protocol (Telegram 2020). 
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Immobilien anzuzeigen. Wie webbasierte APIs grundsätzlich funktionieren, wie 
darüber Daten erhoben werden können und wie die Schnittstellen auch anderwei- 
tig für die Datenanalyse verwendet werden können, wird in diesem Kapitel theo- 
retisch und praktisch beantwortet. 

Warum lohnt sich eine Auseinandersetzung mit APIs? Der Einstieg in eine API 
kann durchaus Zeit in Anspruch nehmen, wenn man sich erst bei einem Anbieter 
registrieren, die Dokumentation verstehen und passende Skripte entwickeln muss. 
Dann aber kommen die Vorteile von APIs gegenüber anderen Datenzugängen zum 
Tragen. Sie liefern einen über längere Zeiträume stabilen Zugang, der in der Regel 
gut dokumentiert und nach der Ersteinrichtung einfach zu handhaben ist. Die Da- 
ten sind vorstrukturiert, zum Beispiel im JSON-Format, sodass sich der Aufwand 
bei der Datenaufbereitung in Grenzen hält. Schließlich lassen sich darüber auch 
komplexe Analysen wie die automatisierte Bilderkennung oder die Transkription 
von Audiodateien vergleichsweise einfach umsetzen. Dabei ist allerdings immer zu 
beachten, dass die Analyse über einen Dienst läuft, dessen interne Mechanismen 
meist aus Sicht der Wissenschaftler:innen eine black box sind. Insofern gilt es stets, 
die Datenqualität einzuschätzen und zu überprüfen. 


7.2.1 Input: Anfragen an eine API 


Da jede API anders funktioniert, lässt sich keine allgemeingültige Anleitung für 
APIs schreiben. Stattdessen sind alle notwendigen Informationen in den Dokumen- 
tationen der jeweiligen API festgehalten. Diese stellen ein grundlegendes Handbuch 
zur API dar und sind in den Entwicklerportalen oder über Suchmaschinen unter 
Stichworten wie „Reference“ zu finden. Die Dokumentationen beinhalten üblicher- 
weise eine Übersicht über die verschiedenen APIs eines Dienstes — Anbieter schnü- 
ren unterschiedliche Pakete wie eine kostenfreie API oder eine API für Unterneh- 
men. Dort finden sich auch Getting-Started-Anleitungen oder weitere Einstiegshilfen. 
Besonders die APIs von großen Diensten können auf den ersten Blick sehr kompli- 
ziert wirken. Hier lohnt es sich, sich zunächst über die angebotenen Hilfestellungen 
mit der Struktur und den Möglichkeiten der API vertraut zu machen. 

Die Dokumentation enthält insbesondere eine Auflistung der sogenannten End- 
punkte. Endpunkte werden bei webbasierten APIs die URLs genannt, über die ver- 
schiedene Daten wie Geokoordinaten oder Posts abgefragt (oder auch erstellt) und 
über die Funktionen wie die Bild- oder Texterkennung ausgeführt werden können. 
In der Dokumentation wird angegeben, wie sich die URLs zusammensetzen, 
welche weiteren Parameter eine Abfrage benötigt und wie das Ergebnis aussieht. 
Bei der Interaktion mit einer API schickt ein Client — beispielsweise ein selbstge- 
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Methode (GET) und Pfad des 


78 Endpunkts mit dem Platzhalter 
En {doi}. 


FAR E The DO! identifier associated with the work Beschreibung der Parameter. 


URL der Anfrage: Der Platzhalter 
{doi} wurde durch den Digital 
Object Identifier eines 
Zeitschriftenbeitrags ersetzt. 


160-2466.2008.01481.x", 
ler 


Das Ergebnis der Anfrage, 
nachdem der Button TRY IT OUT 
angeklickt wurde, enthält unter 
anderem Autor:in, Titel und die 
Anzahl der Zitationen des 
Beitrags. 


Abb. 7.4 Swagger User Interface für die CrossRef-API zur Abfrage von Daten über Zeit- 
schriftenbeiträge (gekürzt). (Quelle: Crossref (2022; https://api.staging.crossref.org/swag- 
ger-ui/index.html)) 


schriebenes Programm — über diese URL eine Anfrage an den Server, bei dem die 
gewünschten Daten oder Funktionen vorhanden sind. Der Server verarbeitet diese 
Anfrage und gibt die entsprechenden Informationen an den Client zurück. Client 
und Server werden demnach über die API als Schnittstelle miteinander verbunden. 

Einige Dienste stellen eine Webseite bereit, auf der die Endpunkte und verschie- 
dene Parameter direkt ausprobiert werden können. Verbreitet ist dafür zum Bei- 
spiel Swagger UI (Abb. 7.4) oder auf Facebook wird dazu der Graph API Explorer 
angeboten. 

Eine API-Anfrage muss unterschiedliche Elemente beinhalten, damit sie vom 
Server verstanden und akzeptiert wird: Neben der URL gehören dazu Anfrage- 
header, eine Methode und für einige Anfragen zudem eine Payload. Die URL 
setzt sich aus dem Protokoll, der Domain, dem Pfad und Parametern zusammen 
(ausführlich siehe Kap. 2). Eine URL ist dabei eine eindeutige Adresse, die zu 
einer Ressource im Web führt. Ressourcen sind Webseiten, die beispielsweise 
Tabellen, Profile, Posts oder Mediendateien enthalten. Achten Sie beim Surfen 
im Internet darauf, wie sich die URL verändert, wenn Sie Links und Buttons 
anklicken! Die URL einer API beginnt in der Regel immer gleich und enthält 
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mitunter die Version der API, zum Beispiel: https://graph.facebook. 
com/v13.0. An diesen Basispfad werden dann die Pfade der einzelnen End- 
punkte angehängt, zum Beispiel ergibt sich daraus https: //graph.face- 
book.com/v13.0/{page-id}/posts, um die Posts einer Facebook-Seite 
zu erhalten. 

Parameter sind ein Teil der URL, wobei sich zwei Formen unterscheiden lassen. 
Pfadparameter sind Platzhalter im Pfad der URL, die durch eigene Werte ersetzt 
werden, etwa durch den Benutzernamen der Facebookseite des WWF, um die Posts 
dieser Seite zu erhalten: https: //graph.facebook.com/v13.0/wwfde/ 
posts (siehe auch Abb. 7.4 für ein weiteres Beispiel). 

Query-Parameter sind dagegen Name-Wert-Paare, die mit einem ?-Zeichen an 
den Pfad angehängt werden. Mehrere Parameter werden mit einem &-Zeichen 
voneinander getrennt. So kann beispielsweise der Zeitraum von Posts eingegrenzt 
werden: ../ww£de/posts?since=2021-03-01&until=2021-04-01. 
Einige Parameter sind notwendig, so muss immer der Benutzername einer Face- 
book-Seite angegeben werden, um Posts dieser Seite zu erheben. Mit optionalen 
Parametern werden zusätzliche Einstellungen getätigt, beispielsweise die Eingren- 
zung der Zeiträume oder bei der Erhebung von Kommentaren, ob diese chronolo- 
gisch oder nach Relevanz sortiert ausgegeben werden sollen. 

Auch die Paginierung wird häufig über Query-Parameter umgesetzt. Wenn Sie 
mit Google etwas suchen, erhalten Sie in der Regel nicht alle Ergebnisse auf einmal 
zurück, sondern nur eine Seite mit den ersten Treffern, andernfalls wäre das Ergeb- 
nis kaum zu handhaben. Auch die Anfrage an eine API gibt in der Regel nicht alle 
Daten auf einmal zurück, sondern immer nur eine einzelne Seite. Das konkrete Vor- 
gehen, um weitere Ergebnisse oder Seiten zu erhalten, unterscheidet sich von API 
zu API. Häufig kann die Anzahl der Ergebnisse auf einer einzelnen Seite über Para- 
meter wie limit=10 oder limit=100 gesteuert werden und verschiedene Sei- 
ten werden über Parameter wie page=1 oder page=2 angefragt. Eine Alternative 
ist die cursor-basierte Paginierung: Bei jeder Anfrage wird dazu ein festgelegter 
Parameter aus der vorangegangenen Anfrage mitgeschickt (der Cursor), sodass die 
API erkennt, ab welchem Datensatz die Ergebnisliste fortgesetzt werden muss. 

Bei jedem Aufruf einer URL werden zudem Anfrage-Header an den Server ge- 
schickt. Diese enthalten weitere Informationen zur Verarbeitung, sind im Gegensatz 
zu den Parametern aber nicht in der URL sichtbar. Die Header enthalten unter ande- 
rem Angaben zum verwendeten Client, dem sogenannten User Agent. Schauen Sie 
sich einmal in der Entwicklerkonsole eines Browsers an, welche Header beim Surfen 
im Web mitgeschickt werden.” Auch wenn eine API verschiedene Datenformate 


0Dazu rufen Sie etwa unter Firefox die Entwicklerkonsole mit F12 auf, wechseln in den 
Reiter Netzwerkanalyse und klicken eine der Anfragen an. 
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wie JSON oder XML (siehe Kap. 3) unterstützt, kann ein Client das gewünschte 
Format mitunter über den Accept-Header angeben, beispielsweise mit Accept: 
application/json. 

Die Methode der Anfrage teilt dem Server mit, welche Operation auf der ange- 
fragten Ressource ausgeführt werden soll. Sie wird über sogenannte HTTP-Verben 
angegeben, unter anderem: 


e GET: Daten von einer Ressource werden gelesen bzw. abgefragt. 

e POST: Daten werden zu einer Ressource auf einem Server geschickt, um sie 
dort zu speichern. 

e DELETE: Die Ressource soll gelöscht werden. 


Bei der Interaktion mit APIs sind im wissenschaftlichen Kontext besonders die 
Methoden GET und POST üblich. Mit POST werden umfangreichere Daten als 
sogenannte Payload übertragen — zum Beispiel, wenn Audiodateien oder Bildda- 
teien bei einer Anfrage mitgeschickt werden sollen. 


7.2.2 Output: Die Antwort einer API 


Nicht jede Anfrage an einen Server ist erfolgreich: Wenn Zugriffsrechte fehlen, die 
URL oder andere Elemente der Anfrage falsch formatiert sind oder eine Ressource 
nicht (mehr) existiert, quittiert dies der Server mit einem entsprechenden Sta- 
tuscode (Tab. 7.2). Im besten Fall finden sich in der Antwort des Servers weitere 
Informationen zur Fehlerquelle, etwa welcher Parameter der Anfrage nicht korrekt 
angegeben wurde. Die Antwort enthält auch Response-Header, in denen manchmal 
kurze Hinweise auf fehlende Zugriffsrechte erläutert werden. 


Tab. 7.2 Typische Statuscodes beim Umgang mit APIs 


Statuscode Beschreibung 

200 OK Die Anfrage war erfolgreich. 

400 Bad Request Die Anfrage ist falsch formatiert. 

403 Forbidden Der Zugriff ist nicht erlaubt. 

404 Not Found Die Ressource existiert nicht. 

429 Too Many Requests Es wurden zu viele Anfragen gestellt (rate 
limit). 

500 Internal Server Error Auf dem Server ist ein Fehler aufgetreten. 


Quelle: Eigene Darstellung auf Grundlage von Fielding et al. (2022) 
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Ansicht im Browser Anzeige im JSON-Format 


"id": "288837164503756", 


Info AR "name": "Greifswalder Institut für Politik- 


"location": { 


"city": "Greifswald", 

"country": "Germany", 

"latitude": 54.098440810237, 
"located_in": "234989956684237", 
"longitude": 13.375945687294, 
"street": "Ernst-Lohmeyer-Platz 3", 
"zip": "17489" 


Ernst-Lohmeyer-Platz 3 17489 
Greifswald 


STEINBECKERVORST 


© Greifswalder Institut für Politik- und 


Kommunikationswissenschaft (IPK) about": "Greifswalder Institut für Politik 


"description": "Das Greifswalder Institut f 
Das Greifswalder Institut für Politik- und 
Kommunikationswissenschaft - kurz IPK — 


Kommunikationswissenschaft - kurz IPK - ist e 
Instituts für Politikwissenschaft und des zuv 


ist ein Zusammenschluss des ehemaligen 


x “= ans angesiedelten Lehrstuhls für Kommunikationswi 
Instituts für Politikwissens... Mehr ansehen = 


ist das bislang einzige seiner Art in Deutsch 
727 Personen gefällt das, darunter 14 deiner “fan count": 727, 
Freunde > 


Abb. 7.5 Inhalt einer Facebook-Seite im Browser und als JSON-Format. (Quelle: eigene 
Darstellung) 


War die Anfrage erfolgreich, werden die angefragten Daten im Response Body 
zurückgegeben und können auf dem Client abgespeichert werden. Ein typisches 
Datenformat dafür ist JSON (ausführlich siehe Abschn. 3.5). Im JSON-Format 
werden Daten als Objekte in geschweiften Klammern { } zurückgegeben. Objekte 
enthalten wiederum Schlüssel-Wert-Paare: Die Bezeichnung eines Feldes wird in 
Anführungszeichen angegeben, es folgen ein Doppelpunkt und danach der Inhalt 
des Feldes. Mehrere Objekte in einer Liste werden in eckigen Klammern [] zu- 
sammengefasst. 

Abb. 7.5 zeigt die Profilinformationen einer Facebook-Seite, wie sie im 
Browser angezeigt und von einer API als JSON-Objekt zurückgegeben werden. 
Praktisch an API-Daten ist, dass diese immer identisch strukturiert sind, egal 
welche Facebook-Seite abgefragt wird. Auch wenn andere Facebook-Seiten ab- 
gefragt werden, lässt sich über den Schlüssel description immer die Seiten- 
beschreibung und über den Schlüssel Location immer die hinterlegte Ortsan- 
gabe der jeweiligen Facebook-Seite auslesen. Finden Sie im Beispiel, über 
welchen Schlüssel die Anzahl der Personen, denen die Seite gefällt, angegeben 
wird? Durch diese Strukturierung lassen sich Daten leicht in ein Tabellen-For- 
mat überführen, das sich wiederum gut für weitere Analysen eignet (Abb. 7.6). 
Dabei werden die Schlüssel als Spalten verwendet und jedes Objekt wird in 
einer eigenen Zeile abgebildet. Die Werte wiederum sind in den entsprechen- 
den Zellen zu finden. 
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JSON-Format Tabelle 

{ an zo id name fan_count 
"id": "145718628797076", 14571... | webmoritz.de 1470 
"name": "webmoritz.de", - 
"fan count": 1470 34001... | Greifswald ... 2732 

2 18256... | Fennistik ... 1051 

"id": "340018314585", 
"name": "Greifswald ...", 


"fan_count": 2732 


"id": "182566151762895", 
"name": "Fennistik ...", 
"fan_count": 1051 
} 
1} 


Abb. 7.6 Likes einer Facebook-Seite im JSON-Format und als Tabelle. (Quelle: eigene 
Darstellung) 


7.2.3 Zugang zu APIs: Authentifizierung und Rate Limits 


APIs sind häufig zugangsbeschränkt, zunächst muss man sich deshalb bei einem 
Dienst registrieren und für die API freischalten lassen. Dazu stellen Social-Media- 
Plattformen wie Facebook oder Twitter und auch Cloud-Computing-Dienstleister 
wie Google oder Amazon eigene Portale für Entwickler:innen zur Verfügung. Hier 
registriert man eine App oder ein Projekt, womit aber keine tatsächlich fertig pro- 
grammierte Anwendung gemeint ist, sondern lediglich ein Konto bei dem jeweili- 
gen Dienst. Über diese App erhält man Zugangsdaten zur API, wobei insbesondere 
zwei Verfahren verbreitet sind: 


¢ Im einfachsten Fall erhält man direkt ein Access Token, das wie ein Passwort 
funktioniert und bei Anfragen an die API als Parameter an die URL angehängt 
oder im Header der Anfrage (siehe oben) mitgeschickt wird. 

e Viele Anbieter setzen auf das OAuth-Protokoll (Open Authorization), das 
Login-Prozeduren für ganz unterschiedliche Szenarien beinhaltet. Wenn Sie sich 
beispielsweise mit einem Facebook-Konto auf der Seite eines Onlineshops an- 
melden können, wird dies über OAuth abgewickelt. Hier kommen drei Parteien 
zusammen: Facebook vermittelt an den Shop im Namen der Nutzer:innen den 
Zugriff auf die bei Facebook hinterlegten Daten, zum Beispiel die E-Mailadresse, 
sodass der Shop-Betreiber keine eigene Registrierung anbieten muss. Um eine 
solche Schnittstelle zu benutzen, erhält man vom API-Betreiber eine Client ID 
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und ein Client Secret. Mit diesen Daten kann dann ein Access Token erzeugt 
werden, das wiederum in jeder Anfrage an die API mitgeschickt wird. 


Wie die Registrierung funktioniert, ist üblicherweise auf der Webseite der jeweili- 
gen API dokumentiert.”' Dort finden sich auch Angaben dazu, welche Daten über- 
haupt abgefragt werden können. Eine wichtige Limitation sind die sogenannten 
Rate Limits. Damit begrenzt beispielsweise Twitter, wie schnell die Follower eines 
Twitterprofils abgefragt werden können: In der Standard-API ist dies aktuell auf 15 
Abfragen innerhalb eines Zeitfensters von 15 Minuten begrenzt. Will man direkt 
die Namen der Follower erheben (GET followers/lists), so werden in einer Abfrage 
bis zu 200 Follower zurückgegeben. Ein anderer Endpunkt (GET followers/ids) 
liefert pro Abfrage die IDs von bis zu 5000 Followern, allerdings ohne Namen und 
weitere Profilinformationen.” Gerade bei größeren Projekten, in denen man viele 
Daten über eine API erheben will, sollte man sich deshalb mit den Ratenbegren- 
zungen und möglichen Kombinationen von Abfragen auseinandersetzen. 

Teilweise können höhere Rate Limits auch über Zugänge zu einer Premium API 
oder Enterprise API gekauft werden, hier finden sich sowohl pauschale Preismo- 
delle als auch Modelle, in denen einzelne Abfragen abgerechnet werden. Google 
erlaubt beispielsweise aktuell für die automatisierte Bilderkennung pro Monat 
1000 kostenlose Abfragen, für jedes weitere Paket von 1000 Anfragen werden 
anschließend 1,50 Dollar berechnet.” Einige Anbieter wie Twitter und Facebook 
stellen mittlerweile für wissenschaftliche Forschungsprojekte kostenlose oder er- 
weiterte API-Zugänge zur Verfügung. Bei der Registrierung müssen dazu aller- 
dings Begutachtungsverfahren durchlaufen werden — die Anbieter bestimmen 
selbst, welche Projekte sie genehmigen und welche nicht. 


7.2.4 Tools für die Datenerhebung mit APIs 


Ist der Zugang zur API geklärt, ist die Arbeit mit einer API trotz der vielen bislang 
besprochenen Details im Wesentlichen einfach und unterscheidet sich kaum vom 
normalen Surfen im Web: Eine URL wird zusammengesetzt, aufgerufen und das 


2! Zum Beispiel unter Twitter (2022c; https://developer.twitter.com/en/docs/platform-overview). 
~Dokumentiert bei Twitter (2022f; https://developer.twitter.com/en/docs/twitter-api/v1/ 
accounts-and-users/follow-search-get-users/api-reference/get-followers-list) und Twitter 
(2022a; https://developer.twitter.com/en/docs/twitter-api/v l/accounts-and-users/follow-se- 
arch-get-users/api-reference/get-followers-ids). 


3 Siehe Google (2022e; https://cloud.google.com/vision/pricing). 
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Ergebnis wird abgespeichert. Sie können URLs für API-Anfragen also durchaus 
manuell zusammenstellen (sofern keine Authentifizierung nötig ist). Wenn Sie 
diese URLs in den Browser eintippen, sollten Sie die Daten der Abfrage angezeigt 
bekommen und können diese herunterladen, abspeichern und anschließend aufbe- 
reiten und auswerten. 

Zum Ausprobieren oder für eine einmalige Anfrage mag die manuelle Vorge- 
hensweise hilfreich sein. Soll eine API aber automatisiert genutzt werden, gibt es 
weitere Möglichkeiten, an denen Sie ansetzen können: 


e Mit dem Tool cURL (Stenberg 2022) können Sie die Anfragen über die Kom- 
mandozeile formulieren. In R helfen besonders die Pakete httr zum Senden von 
Anfragen (Wickham 2022a) und jsonlite (Ooms 2014), um die heruntergelade- 
nen Daten in lesbare Datensätze umzuwandeln. Entsprechende Python-Packa- 
ges sind requests (Reitz 2022) und json (Python Software Foundation 2022c). 

e Für einige APIs finden sich fertige Packages für Python oder R, die speziell auf 
eine bestimmte API zugeschnitten sind und eine Vielzahl von gut dokumentier- 
ten Funktionen implementieren. Um beispielsweise auf die Twitter-API zuzu- 
greifen, lassen sich in R die Packages rtweet (Kearney 2019) oder twitterR 
(Gentry 2015) bzw. in Python das Package Tweepy (Roesslein 2020) verwenden. 

e Anbieter von Social-Media-Plattformen oder Cloud-Computing-Diensten stel- 
len sogenannte Software Development Kits (SDKs) für verschiedene Pro- 
grammiersprachen wie JavaScript, PHP, Java oder Python sowie für Betriebs- 
systeme wie Android oder iOS bereit. Damit lassen sich zum Beispiel auf diese 
Plattformen zugeschnittene Smartphone-Apps (native Anwendungen) bauen. 


Darüber hinaus gibt es zahlreiche kommerzielle Dienste oder Tools mit Benutzer- 
oberflächen, über die APIs bedient werden können. Wenn Sie bislang keine Pro- 
grammierkenntnisse haben und einen schnellen Einstieg in die Datenerhebung 
über APIs erleben wollen, sind Tools mit Benutzeroberfläche eine gute Option. 
Darüber können Sie Abfragen relativ einfach zusammenklicken. Eine Vielzahl von 
Prozessen läuft dabei automatisch im Hintergrund ab und wird von den Program- 
men für Sie erledigt. Sie sollten sich nach und nach ein Grundverständnis dieser 
Prozesse erarbeiten. Als universelle Lösungen können Sie zum Beispiel das speziell 
für den Einstieg in die automatisierte Datenerhebung entworfene Facepager”'oder 
das bei Programmierer:innen beliebte Postman” einsetzen. In den folgenden Kapi- 


4 Siehe Jünger und Keyling (2022; https://github.com/strohne/Facepager). 
°5 Siehe Postman (2022; https://www.postman.com). 
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teln werden einmal mit Facepager die Erhebung von Twitter-Daten und einmal 
mittels des R-Package googleCloudVisionR (Pal et al. 2020) die automatisierte Bil- 
derkennung tiber Google illustriert. 


7.2.5 Social-Media-Daten über Facepager erheben: Followees 
eines Twitter-Accounts 


Facepager ist ein Open-Source-Tool fiir die automatisierte Datenerhebung mittels 
APIs und Webscraping. Das Programm ist besonders für Anfänger lohnend, da 
keine Programmierkenntnisse notwendig sind und weil es einige Einstiegshilfen 
bereitstellt. Vor allem eine Erhebung von Daten über die APIs von Facebook, 
YouTube und Twitter ist über die dafür zugeschnittenen Module unkompliziert, so- 
fern man Zugang zur API der jeweiligen Plattform hat. Das folgende Beispiel ver- 
deutlicht das Prinzip, das sich dann auf andere APIs übertragen lässt. Weitere Mög- 
lichkeiten sind im ® Repositorium des Buchs aufgeführt.”* Weitere APIs können 
über das universellere Generic Modul abgefragt werden. Für den allerersten Ein- 
stieg sind die Getting-Started-Anleitungen im Wiki von Facepager zu empfehlen.” 
Dort finden sich auch Hinweise zur Auswertung der erhobenen Daten oder ausfiihr- 
liche Erklärungen zu den einzelnen Einstellungen von Facepager. Im zweiten Schritt 
helfen die Presets weiter, um für einige Szenarien die nötigen Voreinstellungen zu 
übernehmen, darin sind ebenfalls Erklärungen der notwendigen Schritte zu finden. 
Das Layout von Facepager ist in Abb. 7.7 zu sehen. In der Menü-Leiste sind 
einige der wichtigsten Funktionen aufgeführt, vor allem das Erstellen neuer Daten- 
banken oder das Hinzufügen von neuen Knoten (engl. nodes) — so werden in Face- 
pager die einzelnen Datensätze wie etwa Posts oder Kommentare bezeichnet. Über 
das Query Setup können die verschiedenen Module ausgewählt und alle notwendi- 
gen Einstellungen für die Abfrage vorgenommen werden. Im Nodes View sind alle 
Datenknoten tabellarisch aufgelistet, wobei jeder Knoten eine Object ID enthält. 
Wenn man einen Knoten anklickt, sieht man im Data View die gesamten erhobenen 
Daten zu einem Knoten. Über das Column Setup kann festgelegt werden, welche 
dieser Daten in eigenen Spalten angezeigt und exportiert werden sollen. Das Status 
Log zeigt während der Erhebung den aktuellen Fortschritt und Fehlermeldungen an. 
Wie diese einzelnen Elemente zusammenspielen, wird nachfolgend anhand ei- 
nes Beispiels beschrieben, bei dem die Followees von Twitter-Profilen (Profile, 


% Mit Facepager können aktuell vorregistrierte Zugänge benutzt werden, womit die Regis- 
trierung einer eigenen App bei den API-Anbietern entfällt. Inwiefern Facepager diesen Ser- 
vice in Zukunft weiter anbieten kann, hängt von Entwicklungen bei den Onlineplatt- 
formen ab. 


27 Siehe Jünger (2020; https://github.com/strohne/Facepager/wiki). 
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IÐ Facepager 4.3 
[F] Open Database Bnew Database [p Export Data [FlAddNodes X Delete Nodes Presets MMAPIs @Help 


Expand nodes % Collapse nodes Q Find nodes I Copy Node(s) to Clipboard q 
Object ID biec Tue _ ie m Data View: Detaildaten 
V IPK Greifswald des gewählten Knotens 


145718628797071 . š . bk:/<page-id>/like 
340018314585 Nodes View: Tabellarische be /zpage-ids fie 


18256615176289 Darstellung der Datensätze pk:/<page-id>/like 


13961074942123| bk:/<page-id>/like 
51058565895679 ij zpags iie ike Column Setup zur 


116277705061155 data Tetched 1200) "05-05 18... Facebook /<page-id>/like = Anpassung des 

112115572230196 data fetched (200) 2021-03-05 18:... Facebook:/<page-id>/like 

252163088650 data fetched (200) 2021-03-05 18:... Facebook:/<page-id>/like Y 
> 


Nodes View 


YouTube Twitter Twitter Streaming Facebook Amazon Settings ‘Status Log 

(https: Node level | | 2021-03-05 18:44:53.391039 Start fe 
Base path [ntps:{/oraph Facebook. com/v3.2 2021-03-05 18:44:53.417359 Added 
Resource _[/<page-id> /likes Select all nodes 


Exclude object types 
Query Setup: Eistellungen Resume colledion [C Status View: 


für die Abfrage der API ne | Protokoll der 
Requests per minute l | Erhebung 


Maximum errors 


Parameters | <page-id> 


Maximum pages [1 B] More settings 


c 
Access token peeeccccccccccccccscscsecsesee, Settings | Login to Facebook 


bFetch Data 


C/Users/Chantal/Documents/Workshop/IPK.db Timer stopped 1 node(s) selected 


Abb. 7.7 Layout von Facepager. (Quelle: eigene Darstellung) 


denen ein Profil folgt) abgefragt werden. Eine solche Erhebung kann Grundlage fiir 
Netzwerkanalysen sein, um die Verbindungen zwischen verschiedenen Organisati- 
onen oder die Diskursgemeinschaften zu aktuellen Themen sichtbar zu machen 
(siehe Kap. 10). Allerdings: Auch wenn APIs relativ stabil sind und das Programm 
fortlaufend an aktuelle Entwicklungen in der Online-Welt angepasst wird, wenn 
Sie das hier lesen, kann sich die Situation schon wieder geändert haben und mög- 
licherweise sind einige Plattformen nicht mehr frei Haus zugänglich oder die unten 
beschriebenen Mausklicks funktionieren nicht mehr auf die gleiche Weise. Im 
Zweifelsfall lohnt es sich immer, die aktuellen Dokumentationen der APIs oder 
verwendeten Tools direkt anzusehen — diese werden üblicherweise von den Betrei- 
bern auf dem aktuellen Stand gehalten. 

Die grundsätzliche Vorgehensweise bleibt immer gleich: Zunächst muss man 
sich mit der API vertraut machen. Dann werden Startpunkte festgelegt, in diesem 
Fall ein Twitter-Profil, und die Einstellungen werden angepasst. Schließlich kön- 
nen die Daten erhoben und exportiert werden. 


Schritt 1: Installation und Datenbank anlegen Installieren Sie sich die aktuelle 
Version von Facepager, indem Sie der für Ihr System passenden Anleitung auf 
GitHub folgen.” Dort werden Installationsdateien für Windows und Mac bereitge- 


28 Siehe Jünger und Keyling (2022; https://github.com/strohne/Facepager). 
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stellt. Facepager wurde mit Python entwickelt — unter Linux (und auch sonst) kön- 
nen Sie Facepager aus dem Quellcode laufen lassen, haben dann aber keine vorre- 
gistrierten Zugänge zu den Social-Media-Plattformen. 


Öffnen Sie Facepager und legen sie über NEw DATABASE (in der Menüleiste) 
eine neue Datenbank an. In dieser werden alle erhobenen Daten gespeichert. Face- 
pager sichert dabei den Stand der Datenbank fortlaufend automatisch — Sie müssen 
nicht extra speichern. 


Schritt 2: Preset laden und Einstellungen anpassen Um einen schnellen Ein- 
stieg in die Datenerhebung zu bekommen, können Sie ein bereits angelegtes Preset 
über den Menüpunkt Presets laden. Um die Twitter-Follower eines Profils zu erhe- 
ben, von dem Sie den Namen kennen, wird zunächst die ID des Profils benötigt. 
Dazu können Sie das Preset „Lookup user data“ für die API-Version 2 laden.” 
Bevor Sie auf APPLY klicken, lesen Sie sich zunächst die Beschreibung des Presets 
durch. Hier sind die Funktionsweise und weitere Einstellungsmöglichkeiten be- 
schrieben. Außerdem ist die offizielle Dokumentation des Endpunktes verlinkt. 
Sobald Sie das Preset anwenden, werden alle grundlegenden Einstellungen in das 
Query Setup (Abb. 7.8) übertragen. 


Aus den Angaben im Query Setup baut Facepager selbstständig die URL für 
die Abfrage zusammen, indem Base path, Resource und Parameter aneinander- 
gesetzt werden. Ein Grundprinzip von Facepager ist dabei die Arbeit mit Platz- 
haltern. Diese werden in spitzen Klammern < > angegeben und während der 
Datenabfrage durch Werte aus den Nodes ersetzt. Wenn man mehrere Nodes 
hinzufügt oder bereits erhoben hat, können Erhebungsschritte automatisiert 
werden, indem nacheinander bei gleichbleibenden Einstellungen immer andere 
Nodes-Daten in die Platzhalter eingefügt werden. In Abb. 7.8 werden zwei 
Platzhalter verwendet: <object ID> wird durch den Wert uni _ greifswald 
ersetzt und der Platzhalter <username> wird wiederum durch <object ID> 
ersetzt.” Im Ergebnis wird über die gesetzten Einstellungen folgende URL zu- 
sammengebaut: 


® Das Preset setzt die Registrierung einer App auf Twitter voraus (siehe unten). Wenn Sie 
keine eigene App registrieren wollen, können Sie eines der Presets für die Version 1 der API 
ausprobieren. 

3% Die doppelte Verwendung von Platzhaltern wäre nicht unbedingt nötig und wird hier nur 
aus Gründen der Übersichtlichkeit verwendet, damit die Object ID über einen Parameter 
angegeben werden kann. 
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https: //api.twitter.com/2 
/users/by/username/uni_greifswald 
?user.fields=id%2Cname%2Cusername%2Cdescription 


Die %2C-Zeichen kodieren dabei das Komma, diese sogenannte Prozentkodie- 
rung (engl. percent encoding) wird für Sonderzeichen in URLs verwendet (siehe 
Abschn. 2.1). Wie die einzelnen Bausteine der URL aussehen müssen und welche 
zusätzlichen Angaben möglich wären, sind der offiziellen Dokumentation von 
Twitter zu diesem Endpunkt entnommen (Abb. 7.9). Dort können Sie sehen, dass 
die Angaben unter „Endpoint URL“ in Facepager auf den Base path und die Res- 


B Facepager 4.3 
[p) Open Database $$ New Database [+] Add Nodes X Delete Nodes XEPresets MMAPIs Ip) Export Data @ 


# Expand nodes Collapse nodes Q Find nodes [Copy Node(s) to Clipboard Transfer nodes 


Object ID Object Type 
uni_greifswald seed 


YouTube Twitter Twitter Streaming Facebook Amazon Generic 


Base path || https://api.twitter.com/2 v| 


Resource || /users/by/username/<username> “| 
Parameters} | <username> v | <Object ID> ~E 
| user.fields v |id,name, username, description Lo x] m 


| TI JE 


Object Key Query Status Query Time Query Type 


>| 


Headers | ~] [ ~] cn 
Method GET v 
Paging key ~| Param | Paging key | Stop key | | Maximum pages [i g 
Response [json | Key to extract [data | Key for Object ID fid ] 
Download [ ] .. | Filename [<None> x] Custom file extension [ <None> ~] 
Authorization header ~| Name {uthorization] Access token [ecececeeoooeeeeooo] Settings Login 


https: //api.twitter.com/2 
/users/by/username/uni greifswald 
?user.fields=id$2Cname%32Cusername32Cdescription 


Abb. 7.8 Einstellungen zur Erhebung von Profilinformationen auf Twitter. Der Platzhalter 
<Object ID> wird bei der Erhebung durch den Startknoten ersetzt. (Quelle: eigene Darstellung) 
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Methode (GET) und Pfad 
GET /2/users/by/username/ nn a en 
‚username Platzhalter ":username" 
Returns a variety of information about one or more users specified by their usernames. 
Endpoint URL Endpoint URL: Basis-URL 


für den Endpunkt 


Authentication and rate limits 


Hinweise zu 
Authentication OAuth 2.0 Authorization Code with PKCE Einschränkungen und 
methods f der ei EN a A th tifi + 
supported by this OAuth 1.0a is also available for this endpoint. uthentifizierung 
endpoint OAuth 2.0 App-only 
Rate limit App rate limit (Application-only): 300 
requests per 15-minute window shared among 
all users of your app Path Parameters: 
Angaben, die im Pfad der 
Path parameters Basis-URL benötigt 
zen werden. Unter jedem 
Name Type Description 
Parameter steht, ob er 
iserr string The Twitter username (handle) of the notwendig oder optional ist. 
user. 


Query Parameters: 
Parameter, die mit ? an die 
Name Type Description URL angehängt werden 
können. 


Query parameters 


tweet. fields enum This fields parameter enables you to select 


OPTIONAL (a which specific Tweet fields will deliver in 


each returned pinned Tweet. 


Exaluplsmepanass Beispiel, wie das Ergebnis 


Default fields Optional fields der Anfrage aussieht. 


Manchmal wird auch 
t aufgeführt, wie eine 
Sail Beispielanfrage aussieht, 
das heißt eine URL mit 
allen Parametern. 


Response fields 


Response Fields: 


Name Type Description Erläuterung der Daten 
u string Unique identifier of this user. This is returned as a (Key-Value-Paare), die im 
string in order to avoid complications with languages Ergebnis enthalten sind 
and tools that cannot handle large integers. 
name string The friendly name of this user, as shown on their 
profile. 


Abb. 7.9 Dokumentation eines Endpunkts zur Abfrage von Profilinformationen (gekiirzt). 
(Quelle: Twitter (2022e; https://developer.twitter.com/en/docs/twitter-api/users/lookup/api- 
reference/get-users-by-username-username)) 
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source aufgeteilt werden und dass der Pfad einen mit Doppelpunkt gekennzeichne- 
ten Platzhalter für den Benutzernamen enthält. Die Angaben zum Parameter „user. 
fields“ sind aus den optionalen Query-Parametern in der Dokumentation zu ent- 
nehmen. Öffnen Sie die Dokumentation einmal selbst und finden Sie heraus: Wie 
können Sie erheben, zu welchem Zeitpunkt der Account erstellt wurde?! Sobald 
Sie solche Dokumentationen verstehen, können Sie sich selbst beliebige Anfragen 
zusammenbauen. 


Schritt 3: Authentifizierung Um die API nutzen zu können, müssen Sie sich zu- 
nächst authentifizieren.” Dieser Prozess gestaltet sich je nach API und teils sogar 
je nach Version der API unterschiedlich. Das Preset im Beispiel nutzt die zweite 
Version der API, bei der Sie selbst eine App registrieren müssen. Eine App zu re- 
gistrieren bedeutet dabei nicht — auch wenn es zunächst so aussieht —, dass Sie 
unbedingt selbst ein Programm schreiben müssen. Stattdessen kann das wörtlich 
verstanden werden, dass sie also eine Applikation und damit die Verwendung oder 
den Gebrauch bei Twitter registrieren. Dies können Sie auf der Seite für Entwick- 
ler:innen von Twitter beantragen, wobei der Anwendungsfall zunächst von Twitter 
geprüft wird.” 


Nachdem Sie einen Zugang erhalten haben, tragen Sie im Query Setup unter 
Settings im Feld CLIENT Ip den erhaltenen API key und im Feld CLIENT SECRET 
den API secret key ein. Wenn Sie anschließend auf Locın klicken, sollte automa- 
tisch ein persönliches Access Token generiert werden. Da dieses wie ein geheimes 
Passwort funktioniert, mit dem Sie die API abfragen, sind die einzelnen Zeichen in 
Facepager durch schwarze Punkte ersetzt. 


Schritt 4: Startpunkte hinzufügen Um nun Daten zu erheben, fügen Sie über 
App Nopes die Namen eines oder mehrerer Twitter-Profile als Startknoten (engl. 
seed node) hinzu. Social-Media-Accounts haben nicht nur einen Namen wie „Uni 
Greifswald“, sondern werden häufig über ein Handle identifiziert. Das Handle ei- 
nes Profils wird in der URL sichtbar, wenn man das Profil im Browser betrachtet — 
es handelt sich in diesem Fall um den Teil, der direkt nach der Domain folgt: 
https://twitter.com/uni_greifswald. Darüber hinaus werden Profile 
über numerische IDs identifiziert, die für jeden Account einzeln vergeben werden 


31 Auflösung: Indem Sie für den Parameter „user.fields‘ neben „id, name, username, descrip- 
tion“ ebenfalls „created_at“ angeben. 


3 Genau genommen handelt es sich um zwei Schritte: Mit der Authentifizierung loggen Sie 
sich nur ein, danach wird geprüft, ob sie auch für den Zugriff autorisiert sind. 


33 Siehe Twitter (2020; https://developer.twitter.com/en/apply-for-access). 


7.2 Application Programming Interfaces (APIs) 297 


und die haufig nicht tiber den Browser sichtbar sind. Inwiefern fiir eine Abfrage das 
Handle oder die ID benötigt wird, ist in der Dokumentation festgelegt. Die Abfrage 
der Profilinformationen funktioniert mit dem Handle als Input, in den Profilinfor- 
mationen ist die ID enthalten, mit der dann die Abfrage der Followees gelingt. 


Schritt 5: Daten erheben Um nun die Daten zu erheben, klicken Sie zunächst 
den Knoten im Nodes View an (hier den Knoten „uni_greifswald“). Wenn Sie meh- 
rere Knoten hinzugefügt haben, können Sie über SELECT ALL NODES im Query Setup 
auch alle Knoten gleichzeitig auswählen. Haben Sie die gewünschten Knoten aus- 
gewählt, klicken Sie auf FETCH DATA. Im Status Log können Sie beobachten, wie 
nun die URLs für die Abfrage zusammengebaut und die einzelnen Daten erho- 
ben werden. 


Die neuen Daten werden den Startknoten untergeordnet. Klappen Sie die Start- 
knoten auf, indem Sie auf den Pfeil links neben dem Knoten oder auf EXPAND ALL 
NODES klicken. Sobald Sie einen Knoten ausgewählt haben, können Sie im Data 
View alle erhobenen Daten inspizieren (Abb. 7.10). 

Über das Column Setup passen Sie an, welche Spalten im Data View angezeigt 
und später exportiert werden (Abb. 7.10). Wenn Sie ein Preset geladen haben, sind 
bereits einige Spalten voreingestellt. Wollen Sie diese entfernen, klicken Sie auf 
CLEAR COLUMNS. Einzelne Spalten fügen Sie hinzu, indem sie ein Key-Value-Paar 
im Data View auswählen und auf ADD COLUMN klicken. Der Schlüssel dieses Paares 


Erhobene Daten des 
ausgewählten Knotens 


icopy son wunbond Forto O 


B Facepager 4.5 
[Ponos nenoste [#]acsnodes X ocererioces Preses (fon [Peono rev 


#Eipandnodes Š Colaemodes Find nodes ME Copy Nodets) to Coboad <= Transfer nodes 


Object ID Query Status name description username Key Value 
v uni_greifswald username uni_greifswald 
138742422 |Uni Greifswald Hier twittert die Hochschul... uni_greifswalc Uni Greifswald 
i 138742422 
description Hier twittert die Hochsc... 


Basca Mastälcaems Qapycammsen @ces cams 


Erstellen der Spalten: 
name 


Welche Keys sollen als = 
Spalte angezeigt und description 
exportiert werden? username 


Abb. 7.10 Schritte nach der Datenerhebung mit Facepager: Daten inspizieren und Spalten 
anpassen. (Quelle: eigene Darstellung) 
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wird dadurch eine Spalte in der Tabelle im Nodes View. Wollen Sie alle Schlüssel 
hinzufügen, klicken Sie auf ADD ALL CoLUMNS. Nachdem Sie die gewünschten 
Spalten ausgewählt und hinzugefügt haben, müssen Sie noch abschließend über 
APPLY COLUMN SETUP die angepassten Spalten bestätigen. Scrollen Sie nun in der 
Nodes View nach rechts, dann sehen Sie die zusätzlichen Spalten.™ 

Wenn Sie nun die ID eines Twitter-Profils haben, können Sie die Followees 
dieses Profils erheben. Laden Sie dafür im nächsten Schritt das Twitter-Preset „Get 
followees“ (siehe Schritt 4). Bevor Sie auf FETCH DATA klicken, kontrollieren Sie 
noch das Node level. Während sich das hinzugefügte Twitter-Handle auf der obers- 
ten Ebene (level 1) befindet, liegt die ID der vorherigen Abfrage auf der zweiten 
Ebene (level 2). Entweder markieren Sie für die Abfrage der Followees den Knoten 
mit der ID oder - insbesondere wenn Sie mehrere Startknoten eingefügt haben — Sie 
setzen in den Settings neben dem Query Setup das Häkchen bei SELECT ALL NODES 
und stellen das NODE LEVEL auf 2 ein. Mit FETCH DATA wird anschließend die 
Abfrage für alle Knoten auf der zweiten Ebene ausgeführt. 


Schritt 6: Daten exportieren Überprüfen Sie nach der Erhebung, ob Sie weitere 
Spalten hinzufügen wollen. Um die Daten zu exportieren, wählen Sie dann die 
gewünschten Knoten aus und klicken auf Export DATA. Wenn Sie alle Knoten 
exportieren wollen, können Sie das direkt im Exportfenster angeben. Dort navigie- 
ren Sie zum Arbeitsverzeichnis, legen einen Namen fest und speichern so die erho- 
benen Daten als CSV-Datei. CSV-Dateien enthalten tabellarische Daten, die mit 
allen gängigen Statistikprogrammen oder auch mit Tabellenprogrammen wie 
Excel, Numbers oder Calc eingelesen werden können (siehe Abschn. 3.3). 


7.2.6 Automatische Bilderkennung über eine Cloud-API 


Tools wie Facepager bieten eine grafische Bedienoberfläche an, sind für vielfältige 
APIs nutzbar und enthalten hilfreiche Funktionen etwa für umfangreichere Erhe- 
bungen und zur Parallelisierung von Anfragen. Gleichzeitig können Sie aus den 
Fehlern, die dabei unweigerlich auftreten, etwas über die einzelnen nötigen Schritte 
lernen und machen sich mit den Dokumentationen von APIs vertraut. Eine Alterna- 
tive dazu stellen Packages für R oder Python dar, die auf ganz bestimmte APIs 
zugeschnitten sind. Sie finden solche Packages etwa für die Erhebung von Twitter- 


%4 Die Platzhalter und Schlüssel können weitere Funktionen zur Transformation von Daten 
enthalten, was insbesondere für das Webscraping nützlich und im Facepager-Wiki erläutert 
ist (Jünger 2020; https://github.com/strohne/Facepager/wiki/Webscraping). 
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oder Telegramdaten und viele andere Social-Media-Plattformen, aber auch fiir die 
Analyse und Aufbereitung von Daten. Eine Vielzahl von Anbietern stellt APIs für 
die automatische Bilderkennung, die Geokodierung von Adressen oder die Senti- 
mentanalyse von Texten zur Verfügung, die über entsprechende Packages verwen- 
det werden können. Bilderkennung können Sie beispielsweise über die Google 
Cloud Vision API durchführen (Google 2022d). Auch wenn dazu im Hintergrund 
eine Vielzahl von Schritten nötig ist — die Authentifizierung beim Anbieter, das 
Hochladen der Bilder, das Formulieren der API-Anfrage, das Abrufen der Ergeb- 
nisse — lässt sich diese API beispielsweise über das R-Package googleCloudVisi- 
onR mit nur zwei Befehlen benutzen. 

Etwas aufwendiger ist lediglich die Ersteinrichtung, denn um die API nutzen zu 
können, müssen Sie sich zunächst in der Google Cloud Console registrieren.” Die 
Nutzung von Clouddiensten ist in der Regel kostenpflichtig, allerdings werden 
häufig Freikontingente gewährt. Aktuell sind über die Google Cloud Vision API die 
ersten 1000 Abfragen je Monat kostenlos, behalten Sie dennoch die Kosten im 
Blick. Nach der Registrierung erstellen Sie in der Weboberfläche ein Projekt und 
aktivieren die Cloud Vision API. Im API-Bereich des Projekts erstellen Sie dann 
Anmeldedaten — das folgende Beispiel geht davon aus, dass Sie einen Schlüssel für 
ein sogenanntes Dienstkonto erstellen und auf Ihren Computer herunterladen. Die 
Anmeldung kann über das Package googleAuthR (Edmondson 2022) erfolgen, wo- 
bei Sie den Pfad zum Anmeldeschlüssel angeben: 


library (googleAuthR) 
gar auth_service (json_file="E:/googlekey.json") 


Prinzipiell kann das Login auch über andere Wege wie OAuth oder über Access 
Token erfolgen. Anschließend reicht mit dem Package googleCloudVisionR ein 
einziger Befehl, um ein Bild von dem eigenen Computer an die API zu schicken 
(imagePaths-Parameter) und daraufhin das Ergebnis der Erkennung zu erhalten: 


library (googleCloudVisionR) 


gcv_get image annotations ( 
imagePaths = "schmetterling.jpg", 
feature = "LABEL_DETECTION", 
maxNumResults = 6 


35 Siehe Google (2022g; https://console.cloud.google.com). 
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mid description score topieality 
/m/09q2t Brown 0.980 0.980 
/m/0q123 Pollinator 0.960 0.960 
/m/Ocyf8 Butterfly 0.954 0.954 
/m/03vt0 Insect 0.952 0.951 
/m/05s2s Plant 0.946 0.946 
/m/Ozkm Arthropod 0.944 0.944 


Abb. 7.11 Das Ergebnis der Google Bilderkennung. (Quelle: Middelbos (2020)) 


Die API gibt nicht nur Bezeichnungen (engl. label) für die verschiedenen er- 
kannten Objekte zurück, sondern auch zwei Kennwerte, mit denen die Erken- 
nungsleistung eingeschätzt werden kann. Der Score gibt auf einer Skala von 0 bis 
1 an, mit welcher Sicherheit das Objekt erkannt wurde und die Topikalität sagt 
aus, wie zentral das Objekt im Bild ist. Im Beispiel in der Abb. 7.11 wird mit einer 
recht hohen Sicherheit ein brauner Schmetterling identifiziert, der das zentrale 
Bildmotiv darstellt. Zusätzlich wird ein eindeutiger Bezeichner (mid) zurückge- 
geben, der für weitere Abfragen des Google Knowledge Graph verwendet werden 
kann. Der Google Knowledge Graph basiert auf Semantic-Web-Technologie 
(siehe Abschn. 3.7) und verknüpft mittels festgelegter IDs und Vokabularen eine 
Vielzahl an Begriffen und Wissensbeständen. 

Eine API kann somit nicht nur für die Datenerhebung, sondern auch für die 
Vorsortierung und Aufbereitung von Daten hilfreich sein. Nach der ersten Einrich- 
tung lassen sich auf diese Weise komplexe Analysen wie die automatische Tran- 
skription von Audioaufnahmen, die Bilderkennung oder auch die Erkennung von 
Hate-Speech mit beeindruckend wenig Aufwand durchführen. Die Güte der Ergeb- 
nisse hängt wesentlich von der Qualität des Ausgangsmaterials und von der Daten- 
grundlage, mit der ein Anbieter das Erkennungsmodell trainiert hat, ab und sollte 
entsprechend immer überprüft werden (siehe Kap. 8). Das aber gilt grundsätzlich, 
wenn Sie mit automatisierten Verfahren der Datenerhebung und -analyse arbeiten. 


Übungsfragen 


1. Sie wollen die Likes einer Facebook-Seite über die Facebook-Graph-API 
mithilfe von Facepager erheben. Dafür fügen Sie „Universität Greifswald“ 
als neuen Knoten hinzu und laden ein entsprechendes Preset. Wieso kann 
diese Abfrage nicht funktionieren? 
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2. Finden Sie heraus: Wie viele Tweets können gleichzeitig mit einer Abfrage 
des Endpunktes GET statuses/user_timeline erhoben werden? Wie viele 
Tweets können Sie pro Tag maximal erheben? 

Was ist mit der Paginierung von Anfragen gemeint? 

Was versteht man unter Ratenlimitierungen (engl. rate limits)? 

5. Was ist ein Access Token und wie erhalten Sie ein Access Token? 


iD 
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Zusammenfassung 


Dieses Kapitel führt in die Grundlagen von Machine-Learning-Verfahren ein. 
Sie lernen, was überwachte von unüberwachten Lernverfahren unterscheidet, 
wie man Emotionen mit einem Künstlichen Neuronalen Netz erkennt und wie 
umfangreiche Textkorpora mittels Topic Modeling erschlossen werden. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


Maschinelles Lernen - überwachte Lernverfahren - unüberwachte 
Lernverfahren - Klassifikation - Regression - Künstliche Neuronale Netze - 
Multilayer Perceptron - Bilderkennung - Scikit-learn - Confusion Matrix - 
Document-Term-Matrix - Topic Modeling - Latent Dirichlet Allocation - 
Quanteda 


Wenn Datenmengen unüberschaubar groß sind oder im Laufe der Zeit viele neue 
Fälle auftauchen, gerät man schnell an zeitliche Grenzen - es ist nicht möglich, 
jeden Fall manuell anzuschauen und auszuwerten. Bei komplexen Analyse- 
ansätzen, die auf mehreren zehntausenden von Fällen basieren und eine Vielzahl 
von Einflussfaktoren berücksichtigen, ist es auch nicht zielführend, jeden Einfluss- 
faktor getrennt zu betrachten. In solchen Fällen kann man einen Computer darauf 
trainieren, dass er selbst nach Lösungen für Analyseprobleme sucht. Dies ist das 
grundlegende Prinzip des sogenannten maschinellen Lernens (engl. machine lear- 
ning). Dabei wird der Computer auf bestehenden Daten trainiert, sodass ein Modell 
zur Beschreibung dieser Daten entsteht. Das Modell kann dann auf neue Daten 
angewendet werden.' So lernt beispielsweise ein E-Mail-Programm, ob eine an- 
kommende E-Mail Spam ist oder nicht. Und auch der Netflix-Algorithmus 
entscheidet durch das Auswerten der bisherigen Nutzung, welche Inhalte er einzel- 
nen Nutzer:innen individuell empfiehlt. Die Besonderheit dieser Verfahren besteht 


! Dieses Kapitel bietet einen Einstieg in die Grundzüge von Machine Learning. Wenn Sie 
Expert:in in dem Gebiet werden wollen, kann es sich lohnen, einen entsprechenden Online- 
Kurs zu belegen oder ein spezialisiertes Lehrbuch durchzuarbeiten. Ein Klassiker in diesem 
Bereich ist Andrew Ng’s Machine Learning-Kurs auf Coursera, siehe Ng (2022; https:// 
www.coursera.org/learn/machine-learning). 
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darin, dass die Klassifikationen und Empfehlungen nicht (ausschließlich) auf Re- 
geln basieren, die etwa eine Redaktion entworfen hat, sondern dass diese aus be- 
stehenden Daten abgeleitet werden. 

Wenngleich Buzzwords wie künstliche Intelligenz (KI), Artifical Intelligence 
(AD, Künstliche Neuronale Netze (KNN) oder eben auch Machine Learning (ML) 
in den letzten Jahren in aller Munde sind und als innovative Technologien er- 
scheinen, sind diese Methoden gar nicht so neu. Der Grundaufbau künstlicher 
neuronaler Netze, der bis heute vielfältig weiterentwickelt wurde, ist bereits vor 
vielen Jahrzehnten beschrieben worden (McCulloch und Pitts 1943; siehe auch 
Russell und Norvig 2012, S. 39). Und bereits in den 1950er-Jahren wurden Pro- 
gramme entwickelt, um Computern das Schachspielen beizubringen (Samuel 
1959). In dieser Frühzeit des maschinellen Lernens wurde auch das Schlagwort 
„Künstliche Intelligenz“ erfunden, das bis heute mit teils mythischen Vorstellungen 
einhergeht (Natale und Ballatore 2020). 

Auch wenn es deutliche Unterschiede zwischen Menschen und Maschinen gibt, 
sind die an menschliche Verhaltensweisen angelehnten Metaphern hilfreich, um 
automatisierte Verfahren zu begreifen. Eine typische Definition maschinellen Ler- 
nens geht auf Tom Mitchell zurück: „A computer program is said to learn from 
experience E with respect to some class of tasks T and performance measure P, if 
its performance at tasks in T, as measured by P, improves with experience E“ (Mit- 
chell 1997). Mitchell folgend wäre eine Spamerkennungssoftware ein Machine- 
Learning-Programm, das Spam-E-Mails erkennt (Task T), indem es durch Men- 
schen vorkategorisierte Mails zur Hilfe nimmt (Experience E) und den Anteil der 
richtig eingeordneten E-Mails berechnet (Performance P). Das Grundprinzip des 
maschinellen Lernens wird demnach bereits seit einiger Zeit für die Datenanalyse 
eingesetzt, die eingesetzten Methoden haben sich aber über die Zeit weiter- 
entwickelt — nicht zuletzt, da aktuelle Computer immer mehr Daten speichern und 
verarbeiten können. 

Die einzelnen Ansätze können dabei grundlegend in zwei Arten von Lernver- 
fahren eingeteilt werden, je nachdem, ob das Ergebnis im Vorhinein bekannt ist 
oder nicht (siehe auch Wrobel et al. 2003):? 


? Mitunter wird davon als weiteres Verfahren das Reinforcement-Learning abgegrenzt, bei 
dem das Verhalten von Agenten (z. B. Autos oder Menschen) simuliert wird. Wenn sich etwa 
automatisierte Autos einen Weg durch unwegsames Gelände bahnen sollen, werden die Ver- 
haltensweisen des Systems bestraft oder bestärkt, wodurch sich die zukünftige Performance 
verbessert. 
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e Überwachtes Lernen: Ausgehend von einem Datensatz ist bereits die korrekte 
Antwort für einige Fälle bekannt, zum Beispiel wenn Spam-E-Mails erkannt 
werden sollen. Basierend auf diesem Wissen wird dem Computer ein Algorith- 
mus beigebracht, durch den er weitere korrekte Antworten vorhersagen kann 
(siehe Abschn. 8.1). 

e Uniiberwachtes Lernen: Beim unüberwachten Lernen ist vorab nicht bekannt, 
wie die Lösung am Ende aussehen wird. Ein Beispiel wäre, dass die gesamte 
Berichterstattung eines Jahres nach Themen sortiert wird, ohne dass es bereits 
eine Liste von Themen gibt. Stattdessen sucht der Computer selbst in den Daten 
nach Mustern und gruppiert die Daten anhand der gefundenen Zusammenhänge 
(siehe Abschn. 8.2). 


Unter die Sammelbegriffe des überwachten und unüberwachten Lernens lässt sich 
eine Vielzahl von spezifischen statistischen Verfahren bzw. Machine-Learning- 
Verfahren einordnen, einige überwachte Verfahren sind in Tab. 8.1 aufgeführt, ty- 
pische unüberwachte Verfahren finden sich in Tab. 8.2. In diese beiden Bereiche 
wird in den folgenden Kapiteln einmal anhand automatisierter Bilderkennung 
(Künstliches Neuronales Netzwerk) und einmal anhand automatisierter Text- 
erkennung (Topic Modeling) eingeführt. Hat man die Grundprinzipien verstanden, 
lassen sich die Modellierungsansätze innerhalb eines Bereichs vergleichsweise 
leicht austauschen. Um etwa von der linearen Regression zu einem künstlichen 
neuronalen Netz zu wechseln, sind dank entsprechender R- und Python-Packages 
nur wenige Änderungen am Code nötig. 


8.1 Überwachte Lernverfahren 


Maschinelle Lernverfahren sind universell einsetzbar, sei es bei der Analyse von 
Texten, Bildern oder Zahlen. Dennoch ist es notwendig, sich mit den speziellen 
Anforderungen der inhaltlichen Fragestellungen auseinanderzusetzen. Je mehr 
man über die Domäne weiß, — also je besser man sich beispielsweise mit der Bibel 
auskennt, wenn man Bibeltexte analysieren will —, umso besser können passende 
und effiziente Verfahren ausgewählt werden und umso leichter sind die Ergebnisse 
am Ende interpretierbar. Bei überwachten Lernverfahren ist Vorwissen unabding- 
bar, denn die richtige Antwort auf eine Frage muss für einen Teil der Daten bereits 
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Tab. 8.1 Beispiele für überwachte Machine-Learning- Verfahren 


Verfahren | Beschreibung 

Lineare Anhand einer Regressionsgleichung wird der Output durch eine 

Regression | Gewichtung der Input-Werte vorhergesagt. Die lineare Regression sagt 
metrische Werte voraus, das heißt Kommawerte wie Preise, Lebensalter 
oder die durchschnittlich erwartbaren Likes zu einem Posting. 

Logistische | Die Regressionsgleichung wird in die Sigmoid-Funktion gekapselt, 

Regression | wodurch der Output einen Wert zwischen 0 und 1 annimmt, es werden 
Wahrscheinlichkeiten vorausgesagt. Mit logistischer Regression wird 
klassifiziert, beispielsweise um traurige von glücklichen 
Gesichtsausdrücken zu unterscheiden. 

Künstliche Künstliche Neuronale Netze erweitern den Regressionsansatz, um 

Neuronale komplexere Modelle zu ermöglichen. Das Netz besteht aus einer 

Netze Input-Schicht mit den Eingabewerten und einer Output-Schicht mit den 
vorhergesagten Ergebnissen. Dazwischen werden verdeckte Schichten 
geschaltet, die durch Gewichtung der Input-Werte den Output ermitteln. 
Sie eignen sich zur Vorhersage metrischer und kategorialer Daten und 
werden etwa zur Bild- und Texterkennung eingesetzt. Speziell für Bilder 
eignen sich Convolutional Neural Networks (CNN) und für die 
Spracherkennung werden häufig Rekurrente Neuronale Netze eingesetzt 
(RNN). Erstere bilden räumliche und letztere zeitliche Strukturen ab. 
Transformer-Modelle gehen noch einen Schritt weiter, indem sie 
automatisch auswählen, auf welche Ausschnitte des Datenstroms das 
Modell reagiert. 

Naive Bayes |Naive-Bayes-Klassifikatoren verwenden bedingte Wahrscheinlichkeiten 
zur Klassifikation. Beispielsweise könnte ein Indikator für Spam-Mails 
sein, dass häufiger als in anderen E-Mails die Formulierung „click here“ 
auftritt. Dieser Ansatz wird oft als effizientes Referenzmodell verwendet, 
um dann im nächsten Schritt mit komplexeren Modellen noch bessere 
Ergebnisse zu erzielen. 


Support Support-Vector-Machines werden häufig zur Klassifikation eingesetzt, 
Vector wenn sich die Objekte zwar gut voneinander unterscheiden lassen, aber 
Machine nicht linear separierbar sind. Anwendungsfälle wären zum Beispiel die 


Erkennung von Schriftzeichen in Bildern, weil sie komplexe optische 
Muster enthalten. 


Decision Entscheidungsbäume dienen der Klassifikation, wobei die Entscheidung 
Trees für eine Klasse auf eine Kombination von erlernten Regeln zurückgeführt 
führt. 


Quelle: Eigene Darstellung 
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Tab. 8.2 Beispiele für unüberwachte Lernverfahren 


Verfahren 
Clusteranalyse 


Faktorenanalyse 


Topic Modeling 


Autoencoder 


Beschreibung 

Die Clusteranalyse gruppiert ähnliche Objekte, das heißt, Fälle werden 
zusammengefasst. So können beispielsweise verschiedene 
Internetnutzungstypen wie aktive und passive Nutzer:innen gebildet 
werden. Es gibt eine Vielzahl von Verfahren für unterschiedliche 
Anwendungsfälle, verbreitet sind die hierarchische Clusteranalyse (z. B. 
das Ward-Verfahren) und partitionierende Verfahren (z. B. k-means). Die 
Verfahren unterscheiden sich darin, ob die Anzahl der Cluster vor oder 
nach der Analyse festgelegt wird, wie die Ähnlichkeit zwischen 
Objekten berechnet und auf welche Art die Objekte gruppiert werden. 


Die Faktorenanalyse reduziert ähnliche Merkmale auf latente 
Konstrukte, das heißt es werden typischerweise nicht Fälle, sondern 
Variablen zusammengefasst. Hat man beispielsweise mit einem 
psychologischen Fragebogen verschiedene Verhaltensweisen erfasst, 
lassen sich diese auf Persönlichkeitsmerkmale wie Extraversion oder 
Offenheit zurückführen. Auch der Begriff Faktorenanalyse umfasst im 
weiteren Sinne viele verschiedene Verfahren. Ein besonders einfaches 
Verfahren ist die Hauptkomponentenanalyse (engl. principal component 
analysis, PCA). 

Nimmt man an, dass gemeinsam auftretende Wörter auch ähnliche 
Bedeutungen haben — „Aktivismus“ tritt etwa im Kontext von „Politik“ 
auf — und dass Dokumente mit ähnlichen Wörtern ähnliche Themen 
behandeln, dann können Texte entsprechend gruppiert werden. Beim 
Topic Modeling wird versucht, die Themenstruktur hinter einer Menge 
von Texten zu rekonstruieren, das heißt automatisch Themen zu 
erkennen. 

Autoencoder sind eine Variante Künstlicher Neuronaler Netze. Sie 
reduzieren wie die Faktorenanalyse einen hochdimensionalen 
Merkmalsraum auf wenige Merkmale, die sich dann wieder auf die 
Eingabedaten anwenden lassen. Auf diese Weise können etwa die 
wesentlichen Merkmale eines Bildes extrahiert werden (= encoder), um 
dann einen Malstil darauf anzuwenden und Fotos im Stil von Van Gogh 
zu erzeugen (= decoder). Auch das Rauschen in Bildern lässt sich mit 
diesen Techniken reduzieren. 


Quelle: Eigene Darstellung 


vorher bekannt sein. Ausgehend davon wird ein Modell trainiert, das weitere kor- 
rekte Antworten vorhersagen kann. Wenn beispielsweise Emotionen in Bildern er- 
kannt werden sollen, muss bereits vorab für einen Teil der Bilder erfasst sein, 
welche Emotionen diese abbilden. Bei der Modellierung wird dann überprüft, in- 
wiefern vorhergesagte und tatsächliche Antworten übereinstimmen — der Prozess 
wird also zu einem gewissen Grad durch Menschen überwacht. 
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Überwachte Lernverfahren lassen sich in zwei unterschiedliche Arten unter- 
teilen — je nachdem, welche Werte vorhergesagt werden: 


e Wenn der vorherzusagende Output aus kontinuierlichen Werten besteht, han- 
delt es sich um ein Regressionsproblem. Liegen beispielsweise Merkmale von 
Kunstwerken vor und es soll das Schöpfungsjahr vorhergesagt werden, so kann 
der vorhergesagte Wert ein beliebiges Datum zwischen 40.000 vor unserer Zeit- 
rechnung und heute sein. 

e Soll der Output als diskreter Wert vorliegen, wird ein Klassifikationsproblem 
gelöst. Das bedeutet, die Ergebnisse werden in Schubladen gesteckt. Kunst- 
werke könnten in Epochen kategorisiert werden und in den Schubladen mit den 
Bezeichnungen (engl. labels) „altägyptische Malerei“ oder „Renaissance“ landen. 


Ein sehr universelles Modell für überwachtes Lernen ist ein Künstliches Neuro- 
nales Netz (KNN; engl. artificial neural network, ANN). Die Idee hinter Künst- 
lichen Neuronalen Netzen besteht darin, menschliches Denken zu imitieren, indem 
das Gehirn mit seinen Milliarden von verknüpften Neuronen durch mathematische 
Funktionen nachgebaut wird. Auch wenn es sich dabei nur um eine Metapher han- 
delt, werden diese Verfahren als künstliche Intelligenz bezeichnet. Dadurch lassen 
sich Aufgaben bewältigen, die für uns Menschen auf den ersten Blick einfach er- 
scheinen, für einen Computer aber nur durch komplizierte Funktionen lösbar 
sind — wie das Erkennen von Objekten und Texten in Bildern. 

Formal beschrieben wurde das Modell eines künstlichen Neurons bereits 1943 
von Walter Pitts und Warren McCulloch (McCulloch und Pitts 1943). Pitts und 
McCullochs sogenannte Threshold Logit Unit gewichtet Input-Werte und gibt bei 
Überschreiten eines festgelegten Schwellenwerts einen Output zurück — wie ein 
menschliches Neuron, das infolge eines genügend starken Reizes ein Signal weiter- 
leitet. Praktisch implementiert wurde diese Idee erstmals in der einfachen Ver- 
arbeitungseinheit des sogenannten Perzeptrons (Rosenblatt 1958). Im Gegensatz 
zum ursprünglichen Modell eines künstlichen Neurons und auch zu einfachen sta- 
tistischen Regressionsverfahren werden mittlerweile mehrere Schichten und Ver- 
fahren miteinander kombiniert, was als Deep Learning (LeCun et al. 2015) be- 
zeichnet wird. So werden Künstliche Neuronale Netze für die Bilderkennung 
beispielsweise als sogenannte Multilayer Perceptrons oder Convolutional Neural 
Networks (LeCun und Bengio 2003) modelliert. 
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Ganz wesentlich für die Modellierung ist ein Algorithmus, der Backpropagation 
genannt wird (Rumelhart et al. 1986). Dieser Algorithmus passt die Verbindungen 
zwischen den Neuronen so lange an, bis eine möglichst optimale Konfiguration ge- 
funden ist. Auch wenn Künstliche Neuronale Netzwerke dadurch sehr mächtig und 
prinzipiell auf fast jedes Regressions- oder Klassifikationsproblem anwendbar sind, 
ist diese Vorgehensweise nicht immer ratsam, da sie teilweise sehr rechenintensiv ist. 
Ist beispielsweise bereits bekannt, dass sich Bots oder Spam durch ganz bestimmte 
Merkmale auszeichnen, können einfachere Verfahren schneller und besser nach- 
vollziehbar zu den gleichen Ergebnissen kommen. Auch die erkenntnistheoretische 
Zielsetzung bestimmt die Wahl des Verfahrens. Wenn das Ziel einer Analyse, wie 
häufig in sozial- oder geisteswissenschaftlichen Studien, darin besteht, die Welt mög- 
lichst nachvollziehbar zu beschreiben oder grundlegende Zusammenhänge zu prü- 
fen, sind einfachere Modelle mit wenigen Parametern hilfreich. Steht dagegen weni- 
ger das Modell als vielmehr die korrekte Erkennung von Gegenständen oder Wörtern 
im Vordergrund, führen komplexere Verfahren wie Künstliche Neuronale Netzwerke 
häufig besser zum Ziel (James et al. 2013, S. 24). Es sollte aber nicht unterschätzt 
werden, dass für gute Erkennungsleistungen eine intensive Entwicklungsarbeit nötig 
ist. Für die verschiedenen Anwendungsfälle finden sich etablierte Softwarepackages 
wie OpenCV (Objekterkennung; Bradski 2000) und Tesseract (Texterkennung; 
Smith 2022), die auch für Einsteiger:innen geeignet sind. 

Wie Künstliche Neuronale Netze funktionieren und modelliert werden, um damit 
Machine-Learning-Probleme zu lösen, wird in diesem Kapitel behandelt. Dafür soll ein 
einfaches Künstliches Neuronales Netz trainiert werden, dass die Emotionen ‚neutral‘ 
und ‚glücklich‘ in Portraitfotos erkennt.” Dies geschieht anhand von drei grundlegenden 
Schritten, die in jedem Machine-Learning-Projekt durchgeführt werden müssen: 


1. Aufbereitung: Die Daten werden üblicherweise in eine Matrixform gebracht. 
Dabei wird jeder Fall, also beispielsweise jedes Bild, in einer Zeile aufgeführt 
und in den Spalten werden die Merkmale erfasst, sodass sich für jedes Pixel 
eine Spalte ergibt. Zusätzlich wird beim überwachten Lernen eine Spalte für die 
vorgegebenen Ergebnisse erstellt, in diesem Fall mit den Emotionskategorien 
(darin unterscheiden sich überwachte und unüberwachte Verfahren). 


Die Materialien für dieses Kapitel — die Bilder sowie nachfolgend beschriebenen Skripte - fin- 
den sich im ® Repositorium. Die Bilder, die in diesem Kapitel verwendet werden, stammen aus 
dem FER-2013-Datensatz (Goodfellow et al. 2013), der über die Plattform Kaggle herunter- 
geladen werden kann, siehe Sambare (2020; https://www.kaggle.com/msambare/fer2013). Der 
ursprüngliche Datensatz umfasst etwa 36.000 Bilder mit sieben verschiedenen Emotionen; in 
diesem Kapitel werden nur die Kategorien ‚neutral‘ und ‚glücklich‘ berücksichtigt. 
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2. Modellierung: Um Fälle zu clustern oder Kategorien vorherzusagen, wird ein 
Modell erstellt. Dieses Modell enthält dann etwa die Angabe, welches Pixel wie 
wichtig für die Vorhersage einer Emotion ist. Um zu diesem Modell zu kom- 
men, wird ein Algorithmus zur Verarbeitung der vorgegebenen Daten festgelegt. 

3. Validierung: Die Güte des Modells wird eingeschätzt, indem beispielsweise 
die durch das Modell vorhergesagten mit den manuell vorgegebenen Kate- 
gorien verglichen werden. Selbst wenn ein Modell die vorliegenden Daten gut 
beschreibt, muss abgesichert werden, dass es auch auf neue Fälle anwendbar, 
also generalisierbar, ist. 


Die einführend vorgestellte Definition maschinellen Lernens entspricht genau die- 
ser Einteilung: Mithilfe von Erfahrung (aufbereitete Daten) bewältigt ein Pro- 
gramm eine Aufgabe (Modellierung) mehr oder weniger gut (Validierung und Vor- 
hersage). Diese Schritte sind dementsprechend nicht auf die Klassifizierung von 
Bildern beschränkt, sondern grundlegend für die Analyse von Daten. 


8.1.1 Datenaufbereitung 


Damit Autos selbst fahren, Postkarten an die richtige Adresse geliefert werden, 
krankhafte Anomalien in Röntgenbildern oder Gegenstände auf Fotos automatisiert 
erkannt werden können, muss einem Computer das „Sehen“ beigebracht werden 
(engl. artificial vision oder auch computer vision). Menschen haben von klein auf 
gelernt, den visuellen Reizen in Bildern sinnvolle Bedeutungen zuzuschreiben und 
können demnach eine Statue von einem Wandteppich unterscheiden, den Verlauf 
einer Straße erkennen oder Emotionen in den Gesichtern anderer Personen deuten. 
Damit ein Computer ebenso Fotografien nach vorgegebenen Emotionen sortieren 
kann, wird er mit vorsortierten Bildern trainiert. 

Dafür werden Bilder zunächst in eine für den Computer verarbeitbare Matrix- 
form? gebracht, wobei jedes Bild in einer Zeile erfasst ist (Abb. 8.1). Ganz ähnlich 
werden auch Texte, Videos oder Tonaufnahmen für die automatisierte Datenana- 
lyse aufbereitet, wenn jedes geschriebene Wort oder jedes Audiosample als ein 
einzelnes Feature begriffen wird. Zur Beschreibung der Matrizen haben sich Kon- 
ventionen ausgebildet. Die Anzahl aller Bilder, anhand derer einem Computer das 
Sehen beigebracht werden soll, wird mit m bezeichnet; bei 12.180 Fotos gilt dem- 


*Eine Einführung in die Datenformate Vektor und Matrix findet sich in Abschn. 3.1, einen Ein- 
blick in mögliche Transformationsverfahren von Vektoren und Matrizen gibt Abschn. 4.2.4. 
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Label y Features X 


y,=1 _— x,= [.. 240 222 232 235 ...] 
glücklich = 


| 
i 4 
y2= 0 d x = [... 076 091 092 101 ...] 
neutral 
1 .. 240 222 232 235 
y= [o] X= |. 076 091 092 101 


Abb. 8.1 Transformation von Bildern in die Feature-Vektoren x; und die Label y;. (Quelle: 
eigene Darstellung basierend auf FER-2013. (Goodfellow et al. 2013; Sambare 2020)) 


nach m = 12.180. Jeder einzelne Fall, also jedes Foto, wird mit all seinen Merkma- 
len (engl. features) in einen Vektor x; transformiert, das bedeutet, das Bild i wird 
durch eine Liste von Pixeln dargestellt. Liegen Fotos in Graustufen vor, nimmt 
jedes Pixel einen Wert zwischen 0 und 255 an — durch diesen Wert wird die Hellig- 
keit des Pixels ausgedrückt. Hat das Bild beispielsweise die Dimension 48 x 48 
Pixel, kann dieses Bild durch den Vektor x; mit insgesamt 2304 Pixel-Werten genau 
beschrieben werden. Die Anzahl der Werte in einem Vektor wird mit n bezeichnet, 
im Beispiel wären dies also n = 2304 Features. 

Die zum Bild zugehörige Emotion, die der Computer später selbst erkennen soll, 
wird durch den Wert y; erfasst. Häufig wird dabei die Referenzkategorie als y = 0 be- 
zeichnet und die vorhergesagte Kategorie als y = 1. Die Zahlen 0 und 1 sind in diesem 
Fall selbst festgelegte Label für die Emotionskategorien ‚neutral‘ und ‚glücklich‘. 
Wenn mehrere Kategorien gleichzeitig vorhergesagt werden sollen, beispielsweise die 
Gesichtsausdrücke wütend, lächelnd oder ängstlich, lassen sich diese in jeweils einer 
mit 0/1 kodierten Spalte erfassen, wobei dann nur die zutreffende Spalte eine 1 enthält 
und alle anderen Spalten eine 0. Diese Form wird als One-Hot-Kodierung bezeichnet. 
In der Statistik ist es zudem üblich, die Spalte der Referenzkategorie wegzulassen, da 
sich diese automatisch ergibt, wenn alle anderen Spalten auf 0 stehen. Dann spricht 
man von Dummy-Kodierung. Die Werte aller Vektoren x; bilden zusammen die Ma- 
trix X mit der Dimension m x n. Ergänzend dazu beinhaltet der Vektor y bei über- 
wachten Lernverfahren die vorhergesagten Werte. 


8.1 Uberwachte Lernverfahren 315 


8.1.2 Modellierung 


Um nun Bilder zu klassifizieren, lernen Computer, von einzelnen Pixelwerten auf 
die abgelichteten Emotionen zu schließen. So könnte etwa die Helligkeit des Pixels 
an der Stelle, an der üblicherweise der Mund ist, darauf hindeuten, ob die Zähne zu 
sehen sind (helles Pixel, großer Wert) oder ob der Mund geschlossen ist (dunkles 
Pixel, kleiner Wert). Kann man die Zähne sehen, würde das bedeuten, dass der 
Mund offen ist — die abgebildete Person lacht dann wahrscheinlich oder sieht über- 
rascht aus. Ein Computer weiß natürlich nicht, dass es sich bei dem ausgewählten 
Pixel um den Mund handelt. Allerdings kann er den Zusammenhang erkennen, 
wenn ausgerechnet bei Bildern mit dem Label ‚glücklich‘ wiederholt helle Pixel an 
der gleichen Stelle auftreten und dies als entscheidendes Feature für die Klassi- 
fikation neuer Fotos aufnehmen. Die Zusammenstellung der Features und das Ver- 
fahren, wie von den Features auf die Label geschlossen wird, stellt also eine ver- 
einfachende Modellierung der Wirklichkeit dar. 

Ein Pixel allein reicht nicht aus, um einen Gesichtsausdruck als glücklich zu 
klassifizieren. Um genauere Vorhersagen zu treffen, werden alle Pixel verwendet, 
in der Hoffnung, dass sie sich auf emotionsrelevante Bildbereiche beziehen — wie 
aufgerissene oder entspannte Augen, eine gerunzelte oder glatte Stirn oder auch 
hoch- oder zusammengezogene Augenbrauen. Um festzulegen, welchen Einfluss 
ein Pixel hat, also wie wichtig es für einen bestimmten Gesichtsausdruck ist, wird 
es mit dem Parameter Theta 0 gewichtet. Ein Pixel mit einem hohen Gewicht hat 
einen starken Einfluss auf den gesuchten Ausdruck, ein niedriges Gewicht be- 
deutet, dass der Gesichtsausdruck nicht unbedingt aus dem Pixel ableitbar ist. 
Jedes der entsprechenden Pixel wird dabei einzeln gewichtet und schließlich wer- 
den die gewichteten Pixelwerte addiert. Die Gewichte können auch negativ sein 
und für mehrere Pixelwerte kombiniert werden, um beispielsweise abzubilden, 
dass ein offener Mund nur für Freude steht, wenn nicht gleichzeitig die Stirn ge- 
runzelt ist. Aus der Summe der gewichteten Pixelwerte wird schließlich mithilfe 
der Sigmoid-Funktion? eine Wahrscheinlichkeit berechnet, mit der die gesuchte 
Emotion vorliegt. Das hat zur Folge, dass der errechnete Wert zwischen 0 und 1 
liegt. Ein Wert von 0,76 bedeutet beispielsweise, dass das Foto mit einer Wahr- 
scheinlichkeit von 76 % die gesuchte Emotion zeigt. Setzt man die bisherigen Er- 
läuterungen zusammen, entsteht folgende Gleichung, bei der x für Pixel, 0 für die 
Gewichte und y für die Wahrscheinlichkeit stehen: 


Alternativ werden andere sogenannte Aktivierungsfunktionen eingesetzt, etwa die Relu- 
oder die Softmax-Funktion. 
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y =sigmoid(0, xx, +0, x x, +0, xx; +...) 


Das ist die Formel der logistischen Regression,‘ einem klassischen statistischen 
Ansatz zur Wahrscheinlichkeitsvorhersage, der vielen klassifizierenden Machine- 
Learning-Ansätzen zugrunde liegt. Dieses Modell stößt allerdings an seine Gren- 
zen, wenn komplexere, nichtlineare Zusammenhänge zwischen den einzelnen 
Pixeln und der vorherzusagenden Kategorie überprüft werden sollen. Künstliche 
Neuronale Netze erweitern diese Idee deshalb, indem der Input nicht direkt in 
den Output überführt wird. Stattdessen werden sogenannte verdeckte Schichten 
(engl. hidden layers) dazwischengeschaltet, die aus einzelnen Neuronen be- 
stehen (Abb. 8.2). Die Neuronen der Input-Schicht entsprechen den Pixeln X und 
sagen die Aktivität der Neuronen in den folgenden Schichten voraus, wobei die 
Neuronen zwischen zwei angrenzenden Schichten im einfachsten Fall alle voll- 
ständig miteinander verknüpft sind. Wie groß die Schichten und wie sie mit- 
einander verbunden sind, wird als Netzwerkarchitektur bezeichnet. Ein typisches 
Multilayer-Perzeptron enthält eine verdeckte Schicht, die weniger Neuronen als 


Erstes Neuron der ersten 


verdeckten Schicht a‘? & 
Gewicht, um von al ) 


zu a”) zu kommen 


Erstes Neuron der 
zweiten verdeckten 


Schicht (a?) 


Output (y) 


Zweite 
verdeckte 


Schicht (j 
verdeckte (iz) 


Input (X) Schicht (j4) 


Abb. 8.2 Architektur eines neuronalen Netzes. (Quelle: eigene Darstellung) 
der Input, aber mehr Neuronen als der Output enthält. Mehrere verdeckte Schich- 


‘Genau genommen wird noch ein Basisterm mit dem Gewicht 0, hinzugefügt, der die Basis- 
wahrscheinlichkeit für die vorherzusagende Kategorie erfasst. Eine gut verständliche Ein- 
führung in die logistische Regression findet sich in Field et al. (2012). 
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ten können komplexere Zusammenhänge erfassen, sind aber gegebenenfalls auch 
rechenintensiver und verkomplizieren das Modell. Die letzte Schicht entspricht 
dem Label y. So werden die gewichteten Inputs über mehrere Regressions- 
gleichungen an die nächste Gleichung weitergegeben. Die Werte werden also 
von der Input-Schicht ausgehend immer eine Schicht weiter bis zum Output nach 
vorne geschoben — weswegen dieser Vorgang auch als feed forward be- 
zeichnet wird. 

Durch die verschiedenen Schichten und Neuronen sind kompliziertere Vorher- 
sagen möglich, da die Erkenntnisse der einzelnen Gleichungen miteinander kom- 
biniert werden können. So könnten beispielsweise in der ersten verdeckten Schicht 
einige Neuronen dafür zuständig sein, den Mund zu erkennen, während andere 
Neuronen die Augen entdecken. In der zweiten Schicht könnten dann die unter- 
schiedlichen Kombinationen ermittelt werden: Ein offener Mund und entspannte 
Augen zeigen wahrscheinlich eine glückliche Person, die gerade lacht, während 
ein offener Mund und aufgerissene Augen eher die Emotion ‚überrascht‘ abbildet. 
Ein geschlossener Mund und entspannte Augen zeigen eventuell einen neutralen 
Gesichtsausdruck. Dieses Abdecken unterschiedlicher Kombinationen, sogenannte 
Interaktionseffekte, wäre durch eine einzige Regressionsgleichung, wie sie oben 
aufgeführt ist, nur umständlich möglich. 

Das Geheimnis Künstlicher Neuronaler Netze besteht nun darin, die richtigen 
Gewichte für alle Neuronen zu finden, damit der Output auch korrekt vorhergesagt 
wird. Dazu wird das Künstliche Neuronale Netz mit den manuell kategorisierten 
Bildern trainiert, was als maschinelles Lernen bezeichnet wird. Die Gewichte wer- 
den zunächst (zufällig) vorbelegt und für alle Bilder werden Vorhersagen erstellt. 
Davon ausgehend wird der Fehlerterm (auch Kosten genannt) berechnet — also wie 
weit die Vorhersage mit den bestehenden Gewichten von den tatsächlichen Daten 
entfernt ist. Die Gewichte werden anschließend immer weiter verschoben. Wird 
der Fehlerterm dabei kleiner, sind die neuen Gewichte besser geeignet. Dieser Pro- 
zess wird so lange wiederholt, bis der Fehlerterm nicht mehr (bedeutend) kleiner 
wird, auch wenn am Ende in der Praxis immer ein Fehler übrigbleibt. Damit nicht 
geraten werden muss, in welche Richtung die Gewichte zu verschieben sind, wird 
ein Backpropagation genannter Algorithmus eingesetzt, der die Gewichte schritt- 
weise rückwärts vom Output bis zum Input optimiert. Die genaue Umsetzung die- 
ses Algorithmus (Rumelhart et al. 1986) muss nicht selbst implementiert werden, 
denn zahlreiche Bibliotheken in R und Python stellen fertige Funktionen für ma- 
schinelles Lernen bereit. 
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8.1.3 Validierung 


Was genau in den einzelnen verdeckten Schichten passiert, ist nur schwer erfass- 
bar, weswegen neuronale Netze auch als Blackbox angesehen werden können.’ 
Das ist eine typische Eigenschaft von Machine-Learning-Ansätzen, bei denen am 
Ende vor allem zählt, ob das Modell funktioniert. Um einzuschätzen, wie gut das 
Modell seinen Zweck erfüllt und die richtigen Emotionen erkennt, muss es vali- 
diert werden. Ist das Ergebnis nicht zufriedenstellend, kann man beispielsweise 
Variablen ergänzen, weglassen, kombinieren, die Architektur des Modells ver- 
ändern oder gar das neuronale Netz gegen einen anderen Ansatz wie eine Support 
Vector Machine tauschen. 


Confusion Matrix Um einschätzen zu können, wie gut ein Modell funktioniert, 
berechnet man den Anteil der Fehlklassifikationen. Ein einfaches Maß, um die 
Güte eines Modells zu bestimmen, ist die sogenannte Accuracy — die Fehlklassi- 
fikationsrate. Als Prozentzahl wird angegeben, welcher Anteil der vorhergesagten 
Werte mit den tatsächlichen Werten übereinstimmt. Eine Accuracy von 79 % würde 
beispielsweise aussagen, dass 79 % der Bilder korrekt durch das Modell klassi- 
fiziert wurden. Die restlichen 21 % haben durch das Modell eine Emotion zu- 
geordnet bekommen, die nicht der tatsächlichen Emotion entspricht. Die Accuracy 
kann allerdings irreführend sein, da sie die Klassifikationsrate besonders bei un- 
balancierten Daten (bzw. schiefen Verteilungen) überschätzt. Sind beispielsweise 
sehr wenige überraschte Bilder in einer großen Sammlung von Fotografien, kann 
es durchaus sein, dass das Modell alle neutralen Bilder richtig erkennt und deshalb 
eine hohe Accuracy aufweist. Allerdings hilft das nicht beim Erkennen der weni- 
gen überraschten Gesichter. 


Die Accuracy wird aus der Confusion Matrix berechnet, aus der sich weitere 
Gütekriterien ableiten lassen. Dazu werden in einer 2 x 2-Matrix die Anzahlen der 
tatsächlichen zu den vorhergesagten Werten ins Verhältnis gesetzt (Abb. 8.3). So 
wird der Anteil der richtig und falsch klassifizierten Ergebnisse bestimmt: 


e Richtig positiv: Der Wert wurde als positiv vorhergesagt und ist auch tatsäch- 
lich positiv, zum Beispiel wurde die Emotion ‚glücklich‘ vorhergesagt und 
dabei handelt es sich auch um die tatsächlich abgebildete Emotion. 


"Einzelne Schichten lassen sich allerdings visualisieren, um einen Eindruck zu erhalten, 
siehe zum Beispiel Voss et al. (2021). 
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Abb. 8.3 Confusion Matrix. (Quelle: eigene Darstellung) 
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e Falsch positiv: Der Wert wurde positiv vorhergesagt, ist aber in Wirklichkeit 
negativ, beispielsweise wurde die Emotion ‚glücklich‘ vorhergesagt, obwohl 
das Bild eigentlich in die Kategorie ‚neutral‘ fällt. 

e Falsch negativ: Ein Fall wird als negativ vorhergesagt, ist aber eigentlich posi- 
tiv, wie wenn das Label ‚neutral‘ vorhergesagt wird, obwohl die Emotion 


eigentlich ‚glücklich‘ ist. 


e Richtig negativ: Ein Fall wird korrekterweise als negativ vorhergesagt, ein als 
‚neutral‘ klassifiziertes Bild ist auch tatsächlich ‚neutral‘. 


Die Accuracy berechnet sich aus dem Anteil der richtig positiven und der richtig 


negativen Fälle zu allen Fällen: 


Accuracy = 


richtig positiv + richtig negativ 


alle Fälle 


Anhand der Confusion Matrix können darüber hinausdie Gütemaße Precision, Recall 
und F/ ermittelt werden. Die Precision gibt an, wie viele von den als positiv vor- 
hergesagten Werten auch tatsächlich positiv sind, also wie viele von den Bildern, die 
durch das Modell als ‚überrascht‘ klassifiziert wurden, auch zutreffend das Label 


überrascht haben. 


Precision = 


richtig positiv 


richtig positiv + falsch positiv 
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Das Maß Recall beantwortet dahingegen die Frage: Wie viele von den tatsäch- 
lichen positiven Werten wurden auch durch das Modell korrekt erkannt? Im Bei- 
spiel geht es um den Anteil der erkannten überraschten Bilder unter allen über- 
raschten Bildern: 


Recall = richtig positiv 


richtig positiv + falsch negativ 


Recall und Precision hängen zusammen. Ein hoher Recall kann leicht erreicht wer- 
den, indem einfach alle Bilder als überrascht einsortiert werden, das führt aber zu 
einer geringen Precision. Umgekehrt würde eine hohe Precision vorliegen, wenn 
nur wenige Bilder als überrascht einsortiert werden. Insofern ist bei der Modellie- 
rung darauf zu achten, worin der Anwendungsfall besteht. Eine hohe Precision 
sollte angestrebt werden, wenn Fehlerkennungen schädliche Folgen haben. An- 
genommen, Straftaten würden automatisiert ermittelt werden, dann würde eine 
geringe Precision viele Unschuldige treffen. Ein hoher Recall ist dagegen hilfreich, 
wenn sicherheitshalber Fehlerkennungen in Kauf genommen werden, etwa wenn 
nicht alle positiven Corona-Tests tatsächlich positiv sind, aber das Übersehen der 
Erkrankung zu einer weiteren Ausbreitung führen würde. Eine Kombination von 
Precision und Recall bietet das Maß F1: 


Fl= 2x Precision x Recall 


Precision + Recall 


Anders als mit der Accuracy besteht hier nicht die Gefahr irrefiihrender Werte, da 
sowohl eine geringe Precision als auch ein geringer Recall zu einem geringen F1- 
Wert führen. Deshalb ist dieses Maß für die Einschätzung der Modellgiite zu 
empfehlen. 


(Kreuz)Validieren und Testen Ein entsprechend komplexes Künstliches Neuro- 
nales Netz kann die Trainingsdaten perfekt abbilden. Das ist aber nicht zielführend, 
denn wenn die Gewichte perfekt auf die bereits bekannten Bilder eingestellt sind, 
dann versagt das Netz in der Regel, wenn es unbekannte Bilder klassifizieren soll. 
Beim maschinellen Lernen muss deshalb beachtet werden, dass Modelle ver- 
allgemeinerbar sein sollen. Dabei können zwei Extrema auftreten, die beide ver- 
mieden werden sollten. Zum einen können Modelle überschätzt sein (engl. overfit- 
ting). Sie weisen dann eine sehr hohe Varianz auf. Das bedeutet, ein Modell passt 
perfekt auf die Daten und bildet alle Einzelfälle gut ab, ist aber völlig ungeeignet, 
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um weitere Daten vorherzusagen. Zum anderen können Modelle auch unter- 
schätzen (engl. underfitting). Sie haben in diesem Fall einen hohen Bias, das heißt, 
sie sind nicht genau oder komplex genug und liegen bereits bei der Vorhersage der 
Trainingsdaten oft daneben. 


Aus diesen Gründen müssen Modelle bereits während des Trainings validiert 
werden. Dazu wird der Datensatz gleich zu Beginn in drei Teile unterteilt (Abb. 8.4). 
Trainiert wird das Künstliche Neuronale Netz nur an einem Teil der Bilder (m,,..)- 
Anschließend wird das trainierte Modell an neuen Bildern, dem sogenannten 
Validierungsdatensatz (myaidierung), überprüft. Indem das trainierte Modell an neuen 
Bildern getestet wird, kann man feststellen, ob es auch andere Fotos richtig erkennt 
und somit verallgemeinerbar ist und nicht nur für einen ganz speziellen, nämlich 
den trainierten Datensatz, die richtige Vorhersage trifft. Sind in dem ursprüng- 
lichen Sample beispielsweise keine Brillenträger:innen vertreten, wird sich das 
Modell schwer tun, solche richtig zu klassifizieren. 

Erzielt das Modell in der Validierung noch keine zufriedenstellenden Ergeb- 
nisse, muss überlegt werden, ob die Architektur verändert oder ob mehr Trainings- 
daten eingespielt werden sollten (siehe unten). Anschließend wird erneut mit dem 
Trainingsdatensatz trainiert und am Validierungsdatensatz getestet. Dieser Pro- 
zess wird so lange wiederholt, bis man ein möglichst präzises Modell erhält." Sind 
die optimalen Parameter gefunden, wird das Modell abschließend an einem letz- 
ten Teildatensatz, dem Testdatensatz (Mes), überprüft. Wichtig ist es, den Test- 
datensatz nur einmal zum Schluss und nicht bereits zur Validierung heranzu- 
ziehen. Ansonsten fließen bereits vorab die Eigenschaften der finalen Testdaten in 
das Modell ein. Ist das Modell anschließend geeignet, kann es auf neue Daten 
angewendet werden. 


Trainingsdaten Validierungs- | Testdaten 
daten 


Abb. 8.4 Verhältnis von Trainings-, Validierungs- und Testdaten. (Quelle: eigene Darstellung) 


®Dieser Suchprozess kann automatisiert werden, indem eine Liste mit Parametern fest- 
gelegt, jedes der dadurch bestimmten Modelle trainiert und dann das Modell mit der besten 
Performance ausgewählt wird. Diese Vorgehensweise wird Grid Search genannt. So kann 
etwa die Größe der ersten verdeckten Schicht in 100er-Schritten von 100 bis 10.000 variiert 
werden, um die optimale Einstellung zu finden. 


322 8 Maschinelles Lernen 


Trainings- Validierungs- 
daten daten 
Trainings- Validierungs- Trainings- 
daten daten daten Test- 


Trainings- | Validierungs- Trainings- daten 
daten daten daten 
Validierungs- Trainings- 
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Abb. 8.5 Aufteilung eines Datensatzes für eine Kreuzvalidierung. (Quelle: eigene Dar- 
stellung) 


Wenn zum Beispiel in R oder Python für die Text- oder Bildanalyse Packages 
verwendet werden, die mit vortrainierten Modellen arbeiten, dann sollte man sich 
immer auch die dazu veröffentlichten Gütemaße anschauen - bei der Bewertung in 
sozial- oder geisteswissenschaftlichen Kontexten kann man sich in etwa an den in 
der Statistik für Reliabilitätstests etablierten Bereichen orientieren, dabei gelten 
Klassifikationen mit Reliabilitätswerten ab ungefähr 0,8 als zuverlässig (Neuen- 
dorf 2017, S. 168). Es kommt aber auf den konkreten Anwendungsfall an, wo man 
die Grenze ansetzt. Wenn es um Menschenleben geht, ist eine Rate von 20 % Fehl- 
klassifikationen sicher nicht akzeptabel. 

Für das Verhältnis der einzelnen Teildatensätze werden häufig die Anteile 
60 % Trainings-, 20 % Validierungs- und 20 % Testdaten gewählt. Dabei ent- 
steht jedoch das Dilemma, dass man möglichst viele Daten für die einzelnen 
Schritte haben möchte: Je mehr Daten in das Trainieren des Modells einfließen, 
desto präziser kann das Modell werden. Gleichermaßen gilt jedoch auch: Je 
mehr Daten für die Validierung zur Verfügung stehen, desto zuverlässiger ist 
diese. Besonders problematisch ist, wenn der Datensatz insgesamt nur wenige 
Fälle aufweist. Eine Lösung für dieses Problem bietet die Kreuzvalidierung. 
Dabei wird der Trainingsdatensatz gemischt und in k Teile unterteilt, beispiels- 
weise in vier Teile.’ Daraus ergeben sich vier Kombinationen von Trainings- 
und Validierungsdatensätzen (Abb. 8.5). Auf jeder Kombination wird an- 
schließend das Modell berechnet und eine Validierung durchgeführt. Die 
Gesamtgüte errechnet sich aus der durchschnittlichen Leistung in allen Durch- 
gängen. Die Kreuzvalidierung nimmt durch die multiple Berechnung mehr Zeit 
in Anspruch, bietet dafür aber genauere und sicherere Ergebnisse. 


°Diese Art der Kreuzvalidierung wird auch k-fache Kreuzvalidierung (engl. k-fold cross- 
validation) genannt. 
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Lernkurven bei hohem Bias Lernkurven bei hoher Varianz 


Validierungskurve 


Trainingskurve 


Validierungskurve 


Error 
Error 


Trainingskurve 


Umfang des Trainingsmaterials Umfang des Trainingsmaterials 


Abb. 8.6 Lernkurven bei Bias (underfitting) und Varianz (overfitting). Bei der Abbildung 
handelt es sich um idealisierte Lernkurven. Dargestellt ist in diesem Fall der Fehlerterm des 
Lernalgorithmus. Links ein hoher Fehler sowohl beim Trainieren als auch beim Validieren. 
Rechts ein hoher Fehler beim Validieren. (Quelle: eigene Darstellung) 


Lernkurven Was ist zu tun, wenn ein Modell nicht gut funktioniert? Aufschluss 
darüber können Lernkurven geben, in denen einzelne Gütemaße wie der Fl-Wert 
oder auch der beim Trainieren berechnete Fehlerterm im Zeitverlauf abgebildet 
werden (Abb. 8.6). Auf der x-Achse wird der Trainingsfortschritt abgebildet, mit 
jedem Feed-Forward- bzw. Backpropagation-Durchgang erweitert sich das ver- 
wendete Trainingsmaterial.'° Auf der y-Achse wird die Performance des Modells 
gemessen. Entweder wird der Fehlerterm des Lernalgorithmus betrachtet — also 
wie stark die Vorhersagen des Modells von den tatsächlichen Werten abweichen — 
oder man visualisiert einzelne Gütemaße wie die Accuracy oder den F1-Wert. In- 
dem man dann die Kurven je für Trainings- und Validierungsdaten erstellt, können 
Verbesserungsmöglichkeiten abgeschätzt werden. 


Um die richtigen Schlüsse aus den Lernkurven zu ziehen, muss man sich zu- 
nächst vor Augen halten, was das dargestellte Maß aussagt und wie eine optimale 
Kurve aussehen sollte. Wird beispielsweise der Fehlerterm für jeden einzelnen 


Für das Erstellen von Lernkurven werden verschiedene Varianten verwendet, die ggf. 
unterschiedlich interpretiert werden müssen. So können a) die einzelnen Durchgänge (engl. 
iteration) beim Optimieren des Modells oder b) Epochen (engl. epoch), nach denen alle 
Trainingsdaten jeweils einmal durchlaufen wurden, dargestellt werden. Mitunter werden 
auch c) vollständige Modelle für unterschiedliche Größen von Trainingsdatensätzen be- 
rechnet, deren Größen auf der x-Achse angegeben werden. 
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Durchgang des Trainingsalgorithmus geplottet, beginnt die ideale Lernkurve für 
den Trainingsdatensatz zunächst niedrig, da am Anfang wenige Fälle vorhanden 
sind und das Modell diese gut abbilden kann. Je mehr Fälle hinzukommen, desto 
größer werden auch die Fehler. Gegenläufig verhält sich die Lernkurve auf dem 
Validierungsdatensatz, das Modell verallgemeinert am Anfang schlecht. Im 
Optimalfall ist der Fehler sowohl bei Trainings- als auch Validierungsdaten gegen 
Ende des Trainings gering und die beiden Kurven treffen sich, das heißt, die 
Trainingsleistung entspricht in etwa der Validierungsleistung. 

Damit lässt sich zunächst einschätzen, inwiefern das Trainingsmaterial aus- 
reicht. Konvergieren die Kurven nicht — sie werden nicht deutlich flacher-, dann 
verbessert sich die Leistung mit jedem weiteren Fall immer noch weiter. In diesem 
Fall lohnt es sich, weitere Daten einzuspielen und den Algorithmus länger laufen 
zu lassen. 

Liegt dagegen eine hohe Varianz (= overfitting) vor, bleibt die Lernkurve des 
Trainingsdatensatzes niedrig und die Lernkurve des Validierungsdatensatzes signa- 
lisiert einen hohen Fehler — das heißt, das Modell passt gut auf die trainierten 
Daten, lässt sich aber nicht gut auf neuen Daten übertragen. Es bleibt also eine 
große Lücke zwischen den beiden Lernkurven. Bei hoher Varianz sind mögliche 
Optionen: Die Anzahl der Variablen zu reduzieren, da weniger Variablen zu all- 
gemeineren Modellen führen, oder mehr Trainingsbeispiele zu sammeln, durch die 
die Gewichte der einzelnen Variablen besser ermittelt werden können. 

Ein hoher Bias (= underfitting) wird daran sichtbar, dass der Fehler insgesamt 
hoch bleibt — das Modell passt also weder auf die Trainingsdaten noch auf die 
Validierungsdaten wirklich gut. Bei hohem Bias kann es helfen, das Modell präzi- 
ser zu trainieren, indem zusätzliche Variablen ausgewählt oder komplexere Mo- 
delle mit mehr Schichten eingesetzt werden. 


8.1.4 Weiterführende Konzepte des maschinellen Lernens 


Wenn Sie den Text bis hierhin nachvollzogen haben, dann verfügen Sie bereits über ein 
solides Wissen über Machine Learning — und können im folgenden Kapitel mit der 
praktischen Umsetzung starten. Wenn Sie tiefer in die Materie einsteigen oder eigene 
Anpassungen an dem im folgenden Kapitel trainierten Netz vornehmen wollen, wer- 
den Ihnen früher oder später weitere Begriffe und Konzepte über den Weg laufen: 


e Lokales und globales Minimum: Wenn ein Modell trainiert wird, soll der 
Fehlerterm, also die Abweichung des Modells von den Daten, möglichst klein 
werden. Wird der Fehlerterm beim Trainieren nicht mehr kleiner, erreicht er ein 
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Minimum - ein Zeichen, dass das Modell fertig trainiert ist. Dabei kann es je- 
doch passieren, dass sich der Fehlerterm nur auf einem lokalen Minimum be- 
findet, das Modell also nur einen Teil der Daten optimal beschreibt. Würde man 
noch etwas weitersuchen und sich dabei auch kurzzeitig auf eine Erhöhung des 
Fehlers einlassen, könnte möglicherweise eine noch bessere Kombination der 
Gewichte gefunden werden. Der niedrigste Fehlerterm, der gesucht wird, be- 
findet sich im globalen Minimum. 

e Regularisierung: Komplexe Netze mit vielen Gewichten passen sich gut an die 
Daten an und führen zu großer Varianz (= overfitting). Dieses Problem kann 
dadurch eingefangen werden, dass die Stärke der Gewichte @ durch einen 
Regularisierungsparameter Lambda A begrenzt wird — die Gewichte werden im 
Grunde selbst noch einmal gewichtet. Auch Dropout ist eine mögliche 
Regularisierungsvariante, dabei wird für jeden Trainingsdurchgang ein Anteil 
der Neuronen ausgeschaltet, sodass sie sich nicht weiter anpassen können. 
Beide Varianten führen dazu, dass bei Klassifikationen die Entscheidungs- 
grenze (engl. decision boundary) geglättet wird. 

e Decision boundary: Stellt man sich ein Koordinatensystem vor, in dem die 
Eigenschaften der Fälle eingetragen sind, dann lassen sich bei Klassifikations- 
problemen die Grenzwerte, ab denen eine Kategorie zutrifft, als Kurve be- 
schreiben. Diese Kurve wird als Entscheidungsgrenze (engl. decision boun- 
dary) bezeichnet. 

° Splines und Polynome: Im Fall von Regressionsproblemen werden kontinuier- 
liche Werte vorhergesagt, etwa die Zeit des Medienkonsums. In einem Ko- 
ordinatensystem wird diese abhängige Variable auf der y-Achse eingetragen. 
Trägt man auf der x-Achse den Bildungsstand ein, so lässt sich der Zusammen- 
hang (= das Modell) als Kurve bzw. bei einer linearen Regression als Gerade 
visualisieren, mit der die Daten optimal beschrieben werden sollen. Komple- 
xere Kurven werden als Polynome oder Splines bezeichnet. 

e Alpha: Alpha bestimmt die Lernrate und wird für den Trainingsalgorithmus 
angegeben, der die optimalen Gewichte für eine Funktion finden soll. Ein gro- 
Bes alpha legt fest, dass die Gewichte in großen Schritten verschoben werden 
sollen, ein kleines alpha verschiebt die Gewichte immer nur wenig. Große Lern- 
raten bergen die Gefahr, dass das Optimum verpasst wird, kleine Lernraten be- 
nötigen dagegen viel Rechenzeit. 

e Feature Extraction und Feature Scaling: Die eingesetzten Variablen können 
vor dem Training ggf. noch aufbereitet werden. Feature Extraction meint in der 
Regel, dass mehrere Variablen zusammengefasst werden (z. B. Höhe, Breite 
und Länge einer Statue zum Faktor Größe), dazu werden etwa Faktorenana- 
lysen eingesetzt. Mit Feature Scaling werden die Werte in einen vergleichbaren 
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Bereich gebracht, damit Berechnungen schneller laufen und einzelne Variablen 
nicht aufgrund des Wertebereichs einen übermäßigen Einfluss auf die Modellie- 
rung nehmen. 

e Grid Search: Die Grid Search ist dabei behilflich, die optimale Kombination 
von Hyperparametern — damit sind die Voreinstellungen eines Modells, etwa die 
Anzahl verdeckter Schichten oder die Lernrate alpha gemeint — zu finden. Dafür 
wird zunächst eine Liste möglicher Parameter definiert. Für jede Kombination, 
die sich aus der Liste ergibt, wird anschließend ein Modell trainiert. Am Ende 
kann man die Modelle vergleichen und das beste Modell auswählen. 

e Ensemble Learning: Beim Ensemble Learning werden verschiedene Lern- 
algorithmen bzw. Modelle kombiniert, damit das Training zu einem besseren 
Ergebnis führt. 

e Batch: Das Modell muss nicht auf allen Trainingsdaten auf einmal trainiert 
werden. Stattdessen können die Daten in sogenannte Batches, also Pakete, 
unterteilt werden. Hat ein Batch beispielsweise eine Größe von 200, so werden 
für den ersten Trainingsschritt 200 Fälle herangezogen. Für die nächste An- 
passung werden neue 200 Fälle verwendet. Dadurch werden die Daten während 
des Trainierens gemischt, sodass sich das Modell nicht so schnell auf einzelne 
Merkmale einstellen kann. Die Wahrscheinlichkeit eines Overfittings wird 
somit kleiner. 


Die Suche nach dem optimalen Modell kann eine große Herausforderung sein — die 
Erkennung von Emotionen allein aufgrund von Gesichtsausdrücken ist selbst für 
Menschen nicht trivial. Die Mühe lohnt sich aber, denn dabei lernen Sie viel über 
die Technologien, die mittlerweile in den Alltag Einzug gehalten haben. 


8.1.5 Ein Künstliches Neuronales Netz in Python trainieren 


Ein Künstliches Neuronales Netz lässt sich in wenigen Schritten in Python (siehe 
Abschn. 5.2) trainieren. Dies ermöglichen spezielle Programmbibliotheken, die 
bereits vordefinierte Funktionen für zahlreiche Machine-Learning-Szenarien 
bereitstellen. Dazu zählen unter anderem Scikit-learn (Pedregosa et al. 2011), 
Keras (Chollet 2020) und Tensorflow (Google 2022h), die auch von Einsteiger:in- 
nen einfach bedient werden können und Algorithmen für die einzelnen Schritte im 
Data-Mining-Prozess (siehe Kap. 4) bereitstellen. Das Modell, das in diesem Kapi- 
tel für die Klassifizierung eingesetzt wird, ist ein Künstliches Neuronales Netz der 
Form eines Multilayer Perceptrons. Legen Sie als erstes ein Python-Notebook an, 
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legen Sie dann die Daten in das Arbeitsverzeichnis (® Repositorium) und geben 
Sie schließlich die nachfolgenden Befehle Schritt für Schritt ein! 


Schritt 1a: Bibliotheken laden Für viele Machine-Learning-Szenarien haben be- 
reits andere Entwickler:innen Funktionen in Python geschrieben. Damit Sie auf 
diese Funktionen zugreifen können, müssen Sie die entsprechenden Bibliotheken 
laden. Die folgenden Bibliotheken werden nachfolgend für die unterschiedlichen 
Aufbereitungs- und Analyseschritte verwendet: 


e numpy und pandas zur Verarbeitung der Datensätze (Harris et al. 2020; Pandas 
development team 2022a), 

e matplotlib und seaborn, um Grafiken zu visualisieren (Hunter et al. 2022; Was- 
kom 2021), 

e Pillow (PIL) für die Verarbeitung von Bildern (Clark und Contributors 2022), 

e  scikit-learn (sklearn) für Verfahren des maschinellen Lernens (Pedregosa et al. 
2011) und 

e os für den Zugriff auf Ordner und Dateien (Python Software Foundation 2022e). 


Eingebunden werden Bibliotheken über den Befehl import.!! Um nicht die gesamte 
Bibliothek laden zu müssen, werden unten mithilfe von from ... import aus den 
Modulen neural_network, metrics und model selection nur be- 
stimmte Klassen geladen. Durch das Importieren mit import as wird die Biblio- 
thek unter einem von Ihnen festgelegten Kürzel eingelesen. Um auf eine Funktion 
zuzugreifen, müssen Sie dadurch nicht immer den vollständigen Namen der Biblio- 
thek ausschreiben, sondern können einfach das Kürzel verwenden: 


import os 
import numpy as np 


import pandas as pd 
import matplotlib.pyplot as plt 


from PIL import Image 


1! Wenn Sie erstmalig die aufgeführten Bibliotheken in Python verwenden, müssen Sie diese 
vor dem Importieren zunächst installieren. Dafür führen Sie in der Konsole den Befehl pip 
install in Kombination mit dem Bibliotheksnamen aus. Zur Installation und der Arbeit 
mit Bibliotheken siehe Abschn. 5.2. 
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from sklearn.neural network import \ 
MLPClassifier 
from sklearn.metrics import confusion matrix, \ 
classification_report 
from sklearn.model_selection import \ 
train test split 


Schritt 1b: Bilder einlesen und aufbereiten Bevor Sie mit dem Einlesen der Bilder 
starten, verschaffen Sie sich einen Eindruck von den Daten. Offnen Sie dafiir den Ord- 
ner fer2013 mit den Bildern. In den Unterordnern happy und neutral sind die Bilder 
abgelegt, die nachfolgend für die Emotionserkennung verwendet werden. Nachdem 
Sie sich einige Fotos angesehen haben, können Sie loslegen, indem Sie die Bilder ein- 
lesen und in die Matrix X und den Vektor y umformen. Dabei bietet es sich an, eine 
eigene Funktion zu definieren. Innerhalb der Funktion wird jedes Bild zunächst mit 
Image.open() aus den Unterordnern eingelesen, anschließend werden die Pixel- 
werte des Bildes mit list () in eine Liste umgeformt und die Pixelliste dann durch 
append () zu einer Liste mit allen bereits eingelesenen Bildern hinzugefügt: 


def load images (folder): 
images = [] 
for filename in os.listdir (folder): 
fullname = os.path.join (folder, filename) 
img = Image.open (fullname) 
img = list (img.getdata()) 
images. append (img) 


return images 


Als Input-Parameter nimmt die Funktion einen Ordner entgegen. Werden die 
Ordner vorher in einer Liste abgelegt, können sie in einer For-in-Schleife ab- 
gearbeitet werden. Die eingelesenen Bilderlisten werden dann mit extend () im 
Objekt X zusammengefiihrt . Das Objekt y wird ebenfalls in jedem Durchgang der 
Schleife erweitert, indem für jedes Bild der zugehörige Ordnername abgelegt wird. 
Nach dem Einlesen werden X und y in numpy-Arrays konvertiert, um die Listen für 
die folgenden Schritte in eine Matrixform zu bringen. Geben Sie die Objekte über 
den Befehl display (X) aus, um das Ergebnis besser zu verstehen: 


] 
y = [I] 


workingdir = os.getcwd() + '/fer2013/train/' 
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folders = ['happy', 'neutral'] 


for folder in folders: 
images = load images (workingdir + folder + '/') 


X.extend (images) 
y.extend([folder] * len (images) ) 


X = np.asarray(X) 
y = np.asarray(y) 


Schritt 1c: Trainings- und Validierungssets erstellen Bevor das Modell trainiert 
wird, legen Sie bereits vorab einen Teil der Daten für die spätere Validierung bei- 
seite. Dazu teilen Sie die Daten mithilfe der Funktion train _test_split () 
auf. Diese nimmt als Input X und y entgegen und unterteilt sie in die Anteile, die Sie 
durch den Parameter test_size festlegen. In diesem Fall werden 20 % der Daten 
für das Validieren des Modells beiseitegelegt. Der zusätzlich angegebene Parameter 
stratify stellt sicher, dass sowohl im Trainings- als auch im Validierungsdaten- 
satz ein ähnlicher Anteil verschiedener Emotionen enthalten ist. Über das Setzen 
des random_state stellen Sie außerdem sicher, dass die Funktion auch bei 
mehrmaligem Ausführen die gleiche Aufteilung vornimmt. Die Funktion gibt vier 
Objekte zurück: die Trainingsdaten der Bilder X_t rain, die Validierungsdaten der 
Bilder X_val, die Trainingslabel y_ train, die Validierungslabel y_ val.’ 


X_train, X_ val, y train, y val = \ 
train test split ( 
X, y, test_size=0.2, 
stratify=y, random_state=180 


Wenn Sie das finale Modell fiir reale Anwendungszwecke verwenden wollen, 
müssten Sie zusätzlich einige Bilder als Testdatensatz (nicht zu verwechseln mit 
dem Validierungsdatensatz) beiseitelegen — um das Verfahren zu erlernen, ist das 
zunächst noch nicht nötig. 


Schritt 2: Trainieren Um ein Künstliches Neuronales Netz in der Form eines 
Multilayer Perceptrons zu trainieren, können Sie die Klasse MLPClassifier () 


Wenn Sie überprüfen wollen, wie groß die Trainings- und Validierungsdatensätze sind, 
können Sie die Funktion len () verwenden, beispielsweise len (X_train). 
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verwenden. Bei der Instantiierung (= aus der Klasse wird ein konkretes Objekt er- 
stellt, siehe Abschn. 5.2) geben Sie alle Parameter mit, mit denen Sie das neuronale 
Netz trainieren wollen. So nimmt beispielsweise der Parameter hidden_layer_ 
sizes die Anzahl der verdeckten Schichten und Neuronen entgegen. Eine Angabe 
von (1000, 100) bestimmt, dass es zwei verdeckte Schichten gibt — die erste 
mit 1000 und die zweite mit 100 Neuronen. Eine Angabe von (1000, 500, 
50) würde ein Netz mit drei verdeckten Schichten festlegen.” 


mlp = MLPClassifier ( 
hidden layer sizes=(1000, 100), 
batch_size=200, 
max iter=1000, 
n_iter no change=10, 
verbose=True, 
random_state=180 


Der so erzeugte Klassifizierer mlp verfügt über eine Methode fit () , mit der 
das Training angestoBen wird. Diese nimmt als Input die Trainingsbilder und -label 
entgegen:'4 


mlp.fit (X_train, y train) 


Dank des Parameters verbose=True wird während des Trainings aus- 
gegeben, wie sich der Fehler (engl. loss) — also die Differenz zwischen den Daten 
und dem Modell - schrittweise verschiebt. Die Werte werden gleichzeitig in der 
Eigenschaft loss_curve_ abgelegt. Um eine erste Einschätzung zu erhalten, 
wie gut das Training funktioniert hat, erstellen Sie daraus mithilfe der Funktion 
plot () aus der Bibliothek matplotlib eine Lernkurve:'> 


13 Übernehmen Sie gerne zunächst die festgelegten Parameter aus dem Codeschnipsel und 
trainieren Sie das Modell damit. Wenn Sie die einzelnen Angaben genauer verstehen und das 
Modell selbst anpassen wollen, schlagen Sie die Erläuterungen in der Hilfe nach (Scikit- 
learn Developers 2022; https://scikit-learn.org/stable/modules/generated/sklearn.neural_net- 
work.MLPClassifier.htm]). 

“Das Trainieren von aufwendigen, vielschichtigen Modellen kann einige Zeit zum Be- 
rechnen in Anspruch nehmen. Beobachten Sie im Output, wie sich der Fehlerterm bei jedem 
Durchgang (engl. iteration) verändert. 

'SDem Training des Künstlichen Neuronalen Netzes liegen zufallsbasierte Prozesse zu- 
grunde. Deswegen kann es sein, dass Ihr Output anders aussieht. 
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plt.plot (mlp.loss_curve_) 
plt.xlabel ("epoch") 
plt.ylabel ("loss") 
plt.show () 


Im Optimalfall sollte die in Abb. 8.7 dargestellte Kurve immer weiter abfallen 
und gegen null gehen. Ein Fehler von null bedeutet, dass es keine Abweichung 
zwischen den Daten und den vom Modell vorhergesagten Werten gibt — das Modell 
bildet die Daten also ideal ab. Der Peak, der zwischen der 20ten und 40ten Epoche 
liegt, kann darauf hindeuten, dass der Algorithmus zuerst in ein lokales Minimum 
gelaufen ist, dann von neuen Trainingsbildern überrascht wurde, anschließend aber 
weiter konvergiert. 


Schritt 3a: Validierung und Optimierung Nach dem Trainieren des Modells 
können Sie überprüfen, wie gut sich das Modell eignet, um von den Bildern auf die 
abgebildeten Emotionen zu schließen. Dafür stellt der Klassifizierer die Methode 
predict () bereit, der Sie die Trainingsdaten übergeben. Mit der Funktion 
confusion matrix () können Sie die vorhergesagten den tatsächlichen Wer- 
ten gegenüberstellen, die Umwandlung in einen Dataframe verbessert die Dar- 
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Abb. 8.7 Loss-Curve. (Quelle: eigene Darstellung) 
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stellung. Über die Funktion classification report () können Sie daraus 
Gütekriterien wie die Precision, den Recall und den Fl-Wert berechnen: 


y_pred = mlp.predict (X_train) 


conf = confusion matrix(y train, y pred) 
print (pd.DataFrame (conf) ) 


report = classification_report(y train, y pred) 
print (report) 


In der Confusion-Matrix (Abb. 8.8) werden die tatsächlichen Werte in den Zeilen 
aufgeführt, wobei O in diesem Beispiel die Referenzkategorie ‚happy‘ und 1 die 
Klassifikationskategorie ‚neutral‘ bezeichnen.'* Insgesamt liegen also 5772 Bilder für 
‚happy‘ vor, was sich an den Metriken in der Spalte support ablesen lässt. Davon 
wurden immerhin 5145 richtig erkannt, was einen Recall von 89 % ergibt. Unter den 
als ‚happy‘ erkannten Bildern (erste Spalte der Confusion-Matrix) befinden sich aller- 
dings auch 1004 in Wirklichkeit neutrale Bilder, das ergibt eine Precision von 84 %. 
Der daraus berechnete F1-Wert von 0,86 zeigt an, dass die Kategorie ‚happy‘ schon 
einigermaßen zuverlässig vorhergesagt werden kann. Für die Kategorie ‚neutral‘ hat 
das noch nicht ganz so gut funktioniert: Hier wurden 75 % der neutralen Fotos er- 


Confusion-Matrix 
0 1 

0 5145 627 

1 1004 2968 


Classification-Report 


precision recall fl-score support 

happy 0.84 0.89 0.86 57712 
neutral 0.83 0.75 0.78 3972 
accuracy 0.83 9744 
macro avg 0.83 0.82 0.82 9744 
weighted avg 0.83 0.83 0.83 9744 


Abb.8.8 Confusion-Matrix und Gütekriterien (Python-Output). (Quelle: eigene Darstellung) 


'6Diese Zuordnung ergibt sich aus der alphabetischen Reihenfolge der Label. 
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kannt, wobei die als neutral klassifizierten Fotos mit 83 % recht zuverlässig auch 
wirklich neutral sind. Eine Accuracy von 78 % bedeutet, dass das Modell insgesamt 
auf den Trainingsdaten eine brauchbare Erkennungsleistung aufweist.” 

Ob das Modell auch für weitere Anwendungsfälle geeignet ist, muss mit dem 
Validierungsdatensatz überprüft werden. Tauschen Sie X_train durch X_val 
im Aufrufvon mlp.predict () aus und vergleichen Sie den Output! Bewegen 
sich die Gütemaße im ähnlichen Bereich, lassen sich mit dem Modell auch neue 
Daten korrekt vorhersagen. Liegt eine hohe Diskrepanz vor, hat das Modell sich 
zwar gut an die Varianz der Trainingsdaten angepasst, ist im Hinblick auf weitere 
Daten aber überschätzt. Eine noch robustere Einschätzung der Güte erhalten Sie 
mittels Kreuzvalidierung auf unterschiedlich großen Teildatensätzen und der Visu- 
alisierung daraus abgeleiteter Lernkurven (® Repositorium). In der Regel führen 
die ersten Versuche nur zu mäßigem Erfolg und es folgt eine Phase, in der man die 
Parameter des Modells oder die Trainingsdaten überarbeitet. 


Schritt 3b: Anwendung auf eigene Bilder Abschließend sollte das Modell an 
einem weiteren Testdatensatz, der nicht in das Training und in die Optimierung der 
Parameter eingeflossen ist überprüft werden. Daran zeigt sich, ob es auch auf neue 
Bilder anwendbar ist. Sind Sie zufrieden mit der Leistung des Modells, können Sie 
es abspeichern und ggf. auch weitergeben.'® Das vortrainierte Modell kann nun 
verwendet werden, um neue Fotos zu klassifizieren und die Ergebnisse auszu- 
werten. Machen Sie ein Foto von sich selbst und füttern Sie das Modell damit — der 
Ausschnitt sollte ähnlich wie die Bilder des Datensatzes sein, auch die Größe und 
die Farben müssen angepasst werden. Es muss dafür gesorgt werden, alle Aus- 
gangsdaten in eine einheitliche Form zu bringen. Die P/L-Bibliothek unterstützt 
dabei, Bilder zu verkleinern und in Graustufen umzuwandeln. Sie können folgende 
Zeilen in die Funktion zum Einlesen der Bilder einbauen: 


img = img.resize((48, 48)) 
img = img.convert (mode='L') 


"Der verwendete Datensatz war vor einigen Jahren Grundlage eines Wettbewerbes. Das 
Leaderboard zeigt die besten Ergebnisse (Kaggle 2013; https://www.kaggle.com/c/ 
challenges-in-representation-learning-facial-expression-recognition-challenge/leaderbo- 
ard). Der beste Teilnehmer erreichte eine Accuracy von 71 % — wobei zu beachten ist, dass 
er diesen Wert für alle und nicht nur für zwei Kategorien erreichte. In sozial- und geistes- 
wissenschaftlichen Anwendungsfeldern erreichen einfache Machine-Learning-Modelle ak- 
tuell häufig eine ähnliche Performance im Bereich 70-80 %. 

'8Die Bibliothek joblib stellt zum Beispiel die Funktionen dump () zum Abspeichern und 
load () zum Einlesen bereit (Varoquaux und Joblib developers 2021). 
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Dann legen Sie die Bilder in den Ordner eigenes_foto, lesen diese mit der schon be- 
kannten Funktion ein und lassen sich überraschen, ob Ihre Künstliche Intelligenz Sie 
durchschaut: 


workingdir = os.getcwd() 
X_new = load images (workingdir + '/eigenes_foto/') 
X new = np.asarray(X_new) 


y_new = mlp.predict (X_new) 
print (y_new) 


8.1.6 Weiterführende Hinweise 


Das Beispiel hat Sie durch die Grundlagen überwachten maschinellen Lernens ge- 
führt. Die Vorgehensweise bleibt in der Regel gleich, unabhängig davon, ob es um die 
Klassifikation von Texten, die Erkennung von Objekten auf Bildern oder um Sprach- 
verarbeitung geht. In der Praxis werden auf den verschiedenen Verarbeitungsstufen 
noch eine Vielzahl weiterer Entscheidungen anstehen. Insbesondere die Suche nach 
den optimalen Parametern für einen ausgewählten Modellierungsansatz kann einige 
Zeit in Anspruch nehmen. Anstatt dass Sie alle denkbaren Kombinationen von Para- 
metern selbst austesten, führen Sie besser eine Grid Search durch. Dazu definieren 
Sie Listen der möglichen Parameter, zum Beispiel für zwei verdeckte Schichten alle 
Kombinationen der Werte zwischen 10 und 210 in 50er-Schritten: 


from itertools import product 
layers = [x for x in 
product ( 
range(10, 211, 50), 
range(10, 211, 50) 


Lassen Sie sich tiber print (layers) die erstellte Liste ausgeben, um das 
Ergebnis besser zu verstehen. Diese Konfiguration können Sie anschließend mit 
GridSearchCV systematisch durchpriifen lassen, was allerdings aufgrund der 
vielen Kombinationen einige Zeit dauert: 


from sklearn.model_ selection import GridSearchCV 


params = [{'hidden layer sizes' : layers}] 
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gridsearch = GridSearchCV( 
mlp, 
params, 
scoring = 'fl_ micro", 
n_jobs = 6, 
verbose = 10 


gridsearch.fit (X_train, y train) 


Die hinsichtlich des Fl-Wertes optimale Kombination findet sich anschließend 
in der Eigenschaft gridsearch.best_parans. 

Ein Multilayer Perceptron eignet sich gut, um die grundlegende Vorgehens- 
weise beim maschinellen Lernen nachzuvollziehen. Geht es um praktische Um- 
setzungen, kommen stattdessen aber weiter ausgearbeitete Modelle zum Einsatz, 
die theoretische Erkenntnisse zur jeweiligen Datenstruktur berücksichtigen. Für 
die Bilderkennung werden etwa Convolutional Neural Networks (CNNs) ein- 
gesetzt, die über zwei spezialisierte Arten verdeckter Schichten die räumliche 
Struktur von Bildern einbeziehen (LeCun und Bengio 2003): 


e Convolution: Eine sogenannte Faltungsmatrix, oder auch Filterkernel bzw. 
Convolutional Window, arbeitet zunächst markante Strukturen der Bilder he- 
raus. Die Faltungsmatrix ist deutlich kleiner als das eigentliche Foto — 
beispielsweise ein Gitter aus 3 x 3 Werten — und wird Schritt für Schritt über 
jeden Ausschnitt des Bildes gelegt. Dabei werden die Pixelwerte des Fotos 
elementweise mit den Werten des Gitters multipliziert. So entsteht ein neues 
Bild, in jedes Pixel sind dabei Pixelwerte der unmittelbaren Umgebung ein- 
geflossen. 

e Pooling: Das Ergebnis der Faltungen wird anschließend in einer Pooling-Schicht 
verarbeitet. Eine verbreitete Form des Poolings ist das Max-Pooling, das aus 
jedem 2 x 2 Ausschnitt der neuen Werte den größten Wert ermittelt. Dies hat zur 
Folge, dass die Informationen verdichtet und nur relevante Eigenschaften bei- 
behalten werden. 


Diese Vorgehensweise kommt dem menschlichen Sehen näher, denn die Pixel 
werden nicht wie oben als Vektor, sondern tatsächlich als zweidimensionale An- 
ordnung behandelt. Auch für die Sprachverarbeitung bieten sich speziellere Mo- 
delle wie Rekurrente Neuronale Netzwerke (RNN) bzw. Long-Short-Term-Me- 
mory-Modelle (LSTM) an, die die sequentielle (zeitliche bzw. textliche) 
Anordnung von Daten berücksichtigen und gewissermaßen über ein Gedächtnis 
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für vorangegangene Wörter oder Laute verfügen. Sogenannte Transformer-Modelle 
gehen noch einen Schritt weiter, indem sie Mechanismen zur Aufmerksamkeits- 
lenkung auf bestimmte Teile des Datenstroms einsetzen. Viele dieser Varianten 
können ebenfalls mit Python trainiert werden, etwa mit dem Framework Tensor- 
flow." Einen Überblick über die Performance verschiedener Modelle für den im 
Beispiel verwendeten Datensatz findet sich bei Khaireddin und Chen (2021). 


Übungsfragen 


1. Was ist der Unterschied zwischen überwachten und unüberwachten Lern- 
verfahren? 

2. Warum wird ein Datensatz in Trainings-, Validierungs- und Testdaten 
unterteilt? 

3. Wofür stehen beim maschinellen Lernen üblicherweise die Buchstaben 
X und y? 

4. Sie haben die Confusion Matrix für ein Modell ermittelt und erhalten fol- 
gende Werte: 


Tatsächlich 

| 0 | 1 | 
Vorher- 0 | 70 | 20 
gesagt 1 


Ermitteln Sie die Precision und den Recall. Wie schätzen Sie das Mo- 
dell ein? 

5. Sie haben ein Modell trainiert und erkennen nach der Validierung, dass die- 
ses eine hohe Varianz aufweist. Was bedeutet das und was sind Ihre nächsten 
Schritte? 

6. Was ist eine Grid Search? 


8.2 Unüberwachte Lernverfahren 


Nicht immer weiß man im Voraus, nach welchen Merkmalen Texte, Bilder oder 
andere Objekte idealerweise sortiert werden können. Häufig handelt es sich dabei 
um große Datenbestände, die nicht manuell gesichtet und kategorisiert werden 
können, beispielsweise die Berichterstattung eines ganzen Jahres, das Gesamtwerk 


' Für einen Praxiseinstieg in CNNs mit Tensorflow und Keras siehe beispielsweise (Google 
2022i; https://www.tensorflow.org/tutorials/images/cnn). 
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eines Autors oder einer Autorin oder die Nutzungsdaten einer umfangreichen 
Webseite. 

Erst durch die Betrachtung aller Merkmale und Strukturen im gesamten Daten- 
satz erschließen sich charakteristische Eigenschaften, mit denen sich einzelne 
Gruppen bilden lassen. Dies ist im Kern die Funktionsweise von unüberwachten 
Lernverfahren. So sind — anders als bei überwachten Lernverfahren (siehe 
Abschn. 8.1) — nicht bereits vorab für einen Teil der Daten die Kategorien bekannt. 
Stattdessen wird ein Lernalgorithmus angewendet, der sich selbst auf die Suche 
nach Strukturen und Mustern in den Daten begibt, um diese zu gruppieren. Die 
identifizierten Eigenschaftsbündel und Gruppen können dann nachträglich be- 
schrieben werden, um daraus Erkenntnisse zu gewinnen oder neue Fälle einzu- 
sortieren. Auch das Bilderkennungsproblem aus dem vorherigen Kapitel könnte in 
einem unüberwachten Lernverfahren gelöst werden. Wenn die Label „neutral“ und 
„happy“ nicht vorab für einen Teildatensatz bekannt wären, könnte man versuchen, 
die Bilder nach ähnlichen Gesichtsausdrücken zusammenzufassen, um den ge- 
fundenen Gruppen anschließend nach einer manuellen Sichtung passende Label 
zuzuordnen. Dabei können durchaus überraschende Gruppen entstehen, die man 
vorab nicht erwartet hat. 

Mittels unüberwachter Lernverfahren werden Daten verdichtet, sodass sich die 
Dimensionen eines Datensatzes reduzieren. Diese Dimensionen kann man sich ins- 
besondere als Zeilen oder Spalten einer Matrix vorstellen: 


e Um Fälle zusammenzufassen, etwa wenn man Nutzer:innen zu Typen grup- 
piert, wendet man Clusterverfahren an. Liegen die Daten als Matrix vor, werden 
die Zeilen zusammengefasst. Clusterverfahren lassen sich danach unterscheiden, 
ob die Anzahl der Gruppen vorab festgelegt werden muss oder ob sich die An- 
zahl aus der Analyse ergibt. Gängige Verfahren der Clusteranalyse sind das 
k-means-Verfahren und die hierarchische Clusteranalyse. 

e Statistische Verfahren, mit denen Variablen zusammengefasst werden, sind die 
Faktorenanalyse oder die Hauptkomponentenanalyse. So können etwa mehrere 
untereinander korrelierende Nutzungsindikatoren wie die Häufigkeit des Lo- 
gins oder die Anzahl verfasster Kommentare auf einer Webseite zu einem Fak- 
tor „Aktive Nutzung“ verrechnet werden. In der Welt des Machine Learning 
werden die Variablen auch Features genannt und das Bestimmen eines neuen 
zusammengefassten Features heißt Feature Extraction. In Bezug auf Matrizen 
entspricht dies einem Zusammenfassen der Spalten. 


Ob man mit der Verdichtung der Fälle beginnt und schließlich die Merkmale der 
resultierenden Gruppen beschreibt (Clusteranalyse) oder aber eine Vielzahl an 
Merkmalen zusammenfasst, um schließlich Fälle damit zu beschreiben (Faktoren- 
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analyse), hängt von der Fragestellung bzw. Analyseperspektive ab. Komplexere 
Verfahren verbinden diese beiden Perspektiven und modellieren bzw. simulieren 
den datengenerierenden Prozess (siehe Kap. 11). Dazu gehört beispielsweise das 
im Folgenden besprochene Topic Modeling. Im Ergebnis werden gleichzeitig die 
Wörter eines Textes (= Variablen) zu Themen verdichtet und es wird eine Zu- 
ordnung der Themen zu Dokumenten (= Fälle) vorgenommen. 

Die Entwicklung eines unüberwachten Machine-Learning-Modells verläuft im 
Wesentlichen analog zu den Schritten für überwachte Lernverfahren wie sie in 
Abschn. 8.1 detailliert beschrieben sind. Auch hier werden die Daten erstens auf- 
bereitet, zweitens modelliert und drittens validiert. 


8.2.1 Topic Modeling 


Ein weitverbreitetes Verfahren aus dem Feld unüberwachten Lernens ist Topic Mo- 
deling. Das Ziel dieses Verfahrens besteht darin, ein Textkorpus nach Themen zu 
strukturieren. Topic Modeling lässt sich auf vielfältige Dokumentarten wie Bundes- 
tagsreden, Social-Media-Kommentare oder Abstracts wissenschaftlicher Aufsätze 
anwenden.” Die Textmengen sollten allerdings möglichst umfangreich sein und 
das Vokabular in den Dokumenten sollte sich überschneiden, damit die Themen 
aus der Kookkurrenz von Wörtern erschlossen werden können. 

Topic Modeling gibt es in verschiedenen Spielarten, das Grundprinzip der An- 
wendung auf Texte ist unter der Bezeichnung Latent Dirichlet Allocation (LDA) 
von Blei, Ng und Jordan (2003) publiziert worden. Es handelt sich um ein genera- 
tives Modell, das bedeutet dahinter liegen theoretische Annahmen, wie Texte ent- 
stehen. Stellen Sie sich vor, Sie schreiben einen Essay. Gemäß des Modells ent- 
scheiden Sie zunächst, welche Themen in welchem Umfang in Ihrem Essay 
angesprochen werden sollen, zum Beispiel die Bundestagswahl und der Klima- 
wandel. Sodann beginnen Sie zu schreiben und manifestieren diese Themen, indem 
Sie passende Wörter verwenden. Der LDA-Algorithmus dreht diese Entstehungs- 
logik um und versucht für die manifesten Wörter in gegebenen Dokumenten eine 
optimale Zuordnung”! zu den latenten Themen zu finden: „documents are represen- 
ted as random mixtures over latent topics, where each topic is characterized by a 


20Was unter Dokumenten, Wörtern und Topics zu verstehen ist, bleibt der Interpretation 
überlassen. In der Biologie werden mit den gleichen Mixed-Model-Verfahren Genanalysen 
durchgeführt, siehe Pritchard et al. (2000), und prinzipiell lassen sich auch Musikstücke oder 
Bilder mittels generativer Modelle klassifizieren (Hu 2009). 

2! Daher auch der Name Latent Dirichlet Allocation: Die Zuordnung (engl. allocation) ge- 
schieht anhand der sogenannten Dirichlet-Verteilung (Blei 2012, S. 78) — eine Wahrschein- 
lichkeitsverteilung für multivariate Analysen. 
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distribution over words“ (Blei et al. 2003, S. 996). Die optimale Themenstruktur ist 
diejenige, welche am wahrscheinlichsten die vorliegenden Dokumente hervor- 
bringt. Dabei gibt es Grundannahmen über die Zuordnung von Themen zu Doku- 
menten und von Wörtern zu Themen: 


e Ein Dokument zeichnet sich jeweils durch eine begrenzte Anzahl unterschied- 
licher Themen aus. Ein Dokument kann also zum Großteil aus dem Thema 
Bundestagswahl und zu einem geringeren Anteil aus dem Thema Klimawandel 
bestehen. 

e Ein Thema wird jeweils durch eine begrenzte Anzahl zusammenhängender 
Wörter repräsentiert. Das Thema Bundestagswahl Könnte sich besonders durch 
die Wörter „Stimme“ und „Wahllokal“ auszeichnen, während diese Wörter 
beim Thema Klimawandel seltener auftreten. 


Es handelt sich bei Topic Models um Mixed-Membership-Models — sowohl ein 
Wort als auch ein Dokument können mehreren Themen zugeschlagen werden. Die 
Themenzugehörigkeit wird über Wahrscheinlichkeiten angegeben — im Gegensatz 
zu sogenannten Hard-Clustering-Models, bei denen Daten genau einer Kategorie 
zugeordnet werden. 

Die genaue Anzahl der Themen je Dokument und Wörter je Thema ist beim 
Topic Modeling nicht vorgegeben, sondern wird durch Dirichlet-Verteilungen 
modelliert. Die sogenannten Hyperparameter des Verfahrens geben für die ver- 
wendeten Dirichlet-Verteilungen vor, wie divers die Dokumente (alpha-Parameter 
a) und Themen (eta-Parameter n) sein dürfen. Dabei wird der Zusammenhang zwi- 
schen den Wörtern berücksichtigt. Ein Computer kann den Wörtern nicht selbst 
Bedeutungen zuschreiben. Er weiß also nicht, dass Wörter wie „Kanzlerin“, 
„Stimme“ und „Wahllokal“ zu einem Thema wie der Bundestagswahl gehören 
könnten. Der Computer löst diese Zuordnung stattdessen über einen Algorithmus, 
der gleichzeitig die Wörter auf die Themen und die Themen auf die Dokumente so 
verteilt, dass sich eine plausible Zuordnung ergibt. Tauchen die Wörter „Kanzle- 
rin“, „Stimme“ und „Wahllokal“ häufig gemeinsam in verschiedenen Dokumenten 
auf, wird ein Zusammenhang unterstellt. 

Im Prinzip müssten alle theoretisch möglichen Themenstrukturen durchgetestet 
werden, um die wahrscheinlichste Zuordnung zu finden. Allerdings würde diese 
Herangehensweise zwangsläufig an Grenzen stoßen, die Anzahl möglicher Kombi- 
nationen ist zu umfangreich, als dass sie in vertretbarer Zeit vollständig durch- 
gerechnet werde könnte. Deshalb kommt ein zufallsbasiertes Samplingverfahren” 


» Klassischerweise etwa das sogenannte Gibbs-Sampling, ein Spezialfall von Monte-Carlo- 
Verfahren (siehe Kap. 11 sowie Griffiths und Steyvers 2004). 
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zum Zuge, bei dem bestimmte Kombinationen geprüft und Schritt für Schritt ver- 
bessert werden. Zunächst legt man fest, wie viele Themen insgesamt im Korpus zu 
erwarten sind, diese Anzahl wird als k bezeichnet. Dann wird jedem Wort in jedem 
Text zufällig ein Thema zugeordnet. Anschließend werden die Zuordnungen so- 
lange umgeschichtet, bis sowohl die Themen auf die Dokumente als auch die Wör- 
ter auf die Themen möglichst gut den vorgegebenen Verteilungsannahmen ent- 
sprechen. 

Im Ergebnis werden zwei Wahrscheinlichkeiten geschätzt. Die Wahrscheinlich- 
keit, mit der ein Wort zu einem Thema gehört (beta), ergibt sich aus der Häufigkeit, 
mit der ein Wort diesem Thema zugeordnet wurde.” Die Wahrscheinlichkeit, mit 
der ein Dokument zu einem Thema gehört (gamma), ergibt sich aus der Häufigkeit 
themenspezifischer Wörter im Dokument (Abb. 8.9). Auf Basis dieser Wahrschein- 


m 


Dokument-Thema-Wahrscheinlichkeit 


0.007 | spiel 0.007 
0.005 | [bayern 0.006 


cdu 


0.004 | |fc 0.005 


Wort-Thema-Wahrscheinlichkeit 


Abb. 8.9 Struktur von LDA-Topic-Models. Jedem Wort (token) wird innerhalb eines Doku- 
ments ein Topic zugeordnet (blau, griin, orange). Daraus berechnet sich sowohl, wie stark ein 
Thema innerhalb eines Dokuments auftritt (rechts oben), als auch über alle Dokumente hin- 
weg, wie häufig ein Wort (type) innerhalb eines Themas vorkommt (rechts unten). (Quelle: 
eigene Darstellung, nach Blei 2012, S. 78) 


*3Zu beachten ist hier der Unterschied zwischen Type und Token (siehe Kap. 9). Jedem 
Token (= konkretes Auftreten eines Wortes in einem Dokument) wird ein Thema zugeordnet, 
sodass dem gleichen Type (= das Wort unabhängig vom Auftreten) über alle Dokumente 
hinweg unterschiedliche Themen zugeordnet werden können. 
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lichkeiten kann man die typischen Wörter je Thema und die dominierenden The- 
men je Dokument ablesen und interpretieren. Da es sich um ein zufallsbasiertes 
Verfahren handelt, das zudem davon abhängt, wie die Texte aufbereitet werden, 
entstehen je nach Parameterwahl unterschiedliche Modelle. Dementsprechend 
kommt der Validierung (siehe unten) eine besondere Bedeutung zu, wenn man zu- 
verlässig interpretierbare Ergebnisse erhalten will. 


8.2.2 Topic Modeling inR 


Topic-Modeling ist eine mittlerweile so weitverbreitete Technik, dass sie durch 
eine Vielzahl an Packages unterstützt wird. Das folgende Beispiel verwendet das 
R-Package topicmodels (Grün und Hornik 2011) für die Modellierung und Funk- 
tionen aus dem quanteda-Package (Benoit et al. 2018) für die Datenaufbereitung — 
starten Sie RStudio und installieren Sie diese sowie die anderen im jeweiligen 
Schritt mit dem library () -Befehl verwendeten Packages (siehe Abschn. 5.1). 


Schritt 1: Datenaufbereitung Bevor Texte analysiert werden können, müssen sie 
passend zur verwendeten Topic-Modeling-Funktion aufbereitet werden. Liegen die 
Texte als einzelne Dateien oder in einer Tabelle vor, so werden in der Regel zu- 
nächst folgende Schritte ausgeführt (siehe Abschn. 9.1; ausführlicher siehe Maier 
et al. 2018): 


e Tokenisierung: Die Texte werden in ihre einzelnen Wörter zerlegt. 

e Stemming oder Lemmatisierung: Die einzelnen Wörter werden auf ihre 
Grundform zurückgeführt, sodass zum Beispiel „Wahl“ und „Wahlen“ gleich- 
behandelt werden. 

e Relative Pruning: Besonders seltene und besonders häufige Wörter werden 
entfernt. Diejenigen Wörter werden behalten, die zur Unterscheidung der Doku- 
mente beitragen können, also nicht überall vorkommen, gleichzeitig aber häufig 
genug auftreten, um typische Zusammenhänge zwischen den Wörtern sichtbar 
machen zu können. 

e Document-Term-Matrix (DTM): Es wird eine Matrix erstellt, in der jedes 
Dokument in einer Zeile, jedes Wort in einer Spalte und die Häufigkeit des 
Wortes im jeweiligen Dokument in den Zellen festgehalten wird. Als alter- 
nativer Name dieser Datenstruktur findet sich häufig auch die Bezeichnung 
Document-Feature-Matrix (DFM). 
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Im folgenden Beispiel wird ein vorbereiteter Datensatz mit einem Auszug aus der 
deutschen Berichterstattung von Spiegel und der Bild-Zeitung verwendet, in dem 
die Aufbereitungsschritte bereits ausgeführt wurden (® Repositorium). Der Daten- 
satz kann wie folgt eingelesen werden: 


library (quanteda) 
dfm <- read_rds( 


"usenews.mediacloud.wm.2020.german.rds" 


Liegen die Daten dagegen noch nicht in aufbereiteter Form, sondern zum Bei- 
spiel als einzelne Textdokumente im Unterordner korpus vor, dann lesen Sie das 
Korpus mit der readtext () -Funktion ein: 


library (readtext) 
texte <- readtext ("korpus", encoding = "UTF-8") 


Mit dem quanteda-Package kann die Aufbereitung mit vergleichsweise wenig 
Aufwand durchgeführt werden:” 


In quanteda-Corpus umwandeln 
texte <- corpus (texte) 


Tokenisierung 
token <- tokens (texte) 


Stemming 


token <- tokens_wordstem(token) 


Der gesamte Datensatz umfasst die Berichterstattung von Nachrichtenseiten, die laut Reu- 
ters Digital News Report im Jahr 2020 am meisten genutzt wurden (Puschmann und Haim 
2021; https://osf.io/uzca3/). 


> Statt Stemming empfiehlt sich für die bessere Lesbarkeit des Ergebnisses eine Lemmati- 
sierung, dafür können Sie beispielsweise spaCy (Honnibal und Montani 2020) verwenden, 
siehe Abschn. 9.3.2. Quanteda stellt zudem eigene Funktionen für das Topic Modeling be- 
reit, siehe Quanteda (2022; https://tutorials.quanteda.io/machine-learning/topicmodel/). 
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# Document-Term-Matrix erstellen 
dfm <- dfm(token) 
# Relative pruning 
dfm <- dfm trim( 


dfm, 


max_docfreq = 0.1, 


docfreq type = "prop", 


min_termfreq 0.8, 


termfreq type 


"quantile" 
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Das Ergebnis ist eine hochdimensionale, aber spärlich besetzte Matrix, das 
heißt, die Texte werden durch eine Vielzahl an Spalten beschrieben, aber in einem 
einzelnen Text kommen nur wenige der Features vor (Tab. 8.3). Bei der Um- 
wandlung gehen syntaktische und semantische Strukturen der Texte verloren, es 
zählt nur noch, ob oder wie oft ein Wort in einem Dokument vorkommt. Da alle 
Wörter zusammengeworfen werden, wird dies auch als Bag-of-Words-Ansatz be- 
zeichnet. Im nächsten Schritt wird diese Dimensionalität auf eine handhabbare 
Anzahl an Topics reduziert. Das betrifft sowohl die Zeilen als auch die Spalten: 
Für jedes Wort und für jedes Dokument wird eine Zuordnung zu einem Topic vor- 
genommen, wobei die Zuordnung über Wahrscheinlichkeiten ausgedrückt wird. 


Tab. 8.3 Auszug aus einer Document-Term-Matrix 


doc_id 

1192227147 
1210712025 
1380028004 
1380028010 
1380027997 
1380027982 
1380027978 
1380027970 
1380027962 


O 
=. 
5 
5 


10|0|00 0/0/0)0]| 0 


twitter 


=O S al o0/lo/lo]|o- 


angela 


20-000 0/90 0 


corona 


20/000) 0/0 00 


trainer 


SISS S GS] S 0] © 


kinder 


00000 0/0 0 


Basis: rund 35.000 Dokumente (Zeilen) und 90.000 Wörter (Spalten). (Quelle: eigene 


Darstellung) 
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Schritt 2: Modellierung Nach der Aufbereitung wird das LDA-Topic-Model mit 
der Funktion LDA () trainiert. Die Funktion nimmt als erstes die zuvor erstellte 
Document-Term-Matrix entgegen. Zudem müssen Sie über den Parameter k fest- 
legen, zu wie vielen Topics die Wörter und Dokumente gruppiert werden sollen. 
Ob der gewählte Wert sinnvoll ist, werden Sie erst später durch eine Validierung 
des Ergebnisses feststellen können. Unten finden Sie zudem Hinweise dazu, wie 
Sie die Entscheidung datenbasiert treffen können. Über den Parameter control 
legen Sie einen selbstgewählten Seed fest — damit stellen Sie sicher, dass das 
Training trotz des zufallsbasierten Verfahrens immer an der gleichen Stelle beginnt 
und sich Ihre Ergebnisse reproduzieren lassen. 


fit <- LDA(dtm, k = 10, control = list (seed = 646)) 


Optional können Sie auch die Hyperparameter anpassen. Über alpha steuern 
Sie, ob sich Dokumente eher aus vielen (höheres alpha) oder wenigen Themen 
(niedrigeres alpha) zusammensetzen. Für einen ersten Durchlauf sind die Standard- 
einstellungen der Funktion — mit den Werten von 50/k für alpha und 0,1 für eta — in 
der Regel zielführend. Beachten Sie, dass je nach Publikation und Package unter- 
schiedliche Bezeichnungen für diese Parameter verwendet werden. Als alternative 
Bezeichnung für eta findet sich häufig auch beta — nicht zu verwechseln mit der 
sogleich besprochenen beta-Matrix. 

Das Trainieren des Modells kann eine Weile dauern. Das ermittelte Modell ist 
anschließend in dem Objekt fit abgespeichert (Abb. 8.10) und beinhaltet nun unter 
anderem die Wahrscheinlichkeiten, mit denen ein Wort zu einem Thema (beta) und 
mit denen ein Thema zu einem Dokument (gamma) gehört. Die jeweiligen Matri- 
zen mit den Wahrscheinlichkeiten können mit der Funktion tidy () aus dem Ob- 
jekt fit extrahiert und in ein Dataframe konvertiert werden. Um die Wahrschein- 
lichkeit auszulesen, mit der ein Wort zu einem Thema gehört, lautet der Befehl: 


lda_woerter <- tidy(fit, matrix = "beta") 


Tauschen Sie den Wert des Parameters matrix von „beta“ zu „gamma“, 
erhalten Sie die Themen, aus denen sich ein Dokument zusammensetzt: 


lda_docs <- tidy(fit, matrix = "gamma") 


Die Wahrscheinlichkeiten sind in Ida_woerter für jede Kombination aus 
Wort und Thema erfasst (Abb. 8.11). Schaut man sich ein einzelnes Wort an, lässt 
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Name Type Value 
© fit $4 (topicmodels::LDA_VEM) S4 object of class LDA_VEM 
alpha double [1] 0.03600809 
Ö all language LDA(x = dfm, k = 10, control = list(seed = 48)) 
Dim integer [2] 35051 4536830 
© control 


k i Matrix mit der Zuordnung von 


ih Wörtern zu den 10 Themen 


documents 
beta double [10 x 4536830] -36.76 -11.71 -40.80 -50.48 -10.61 -38.55 -241, 


gamma double [35051 x 10] 9.64e-05 9.72e-05 7.22e-01 7.31e-01 8.37e-01 


© wordassignmen 


loglikelihood te Matrix mit der Zuordnung der 10 
t Themen zu den Dokumenten 


iter integer 


logLiks double [0 
n integer [1] 6380319 


Abb. 8.10 Trainiertes Topic-Model-Objekt in R. (Quelle: eigene Darstellung) 


sich ablesen, welchem Thema es am ehesten zuzurechnen ist. Das Wort „Partei“ 
wird mit der Wahrscheinlichkeit 0,0045 am ehesten dem Topic 2 zugeschlagen, am 
wenigsten wahrscheinlich tritt es in Topic 4 auf. 


Schritt 3: Interpretation und Validierung Topic Modeling ist ein exploratives 
Verfahren — Sie müssen überprüfen, ob die im ersten Versuch verwendeten Para- 
meter dazu geeignet sind, interpretierbare Ergebnisse zu liefern, oder ob Sie das 
Modell nachjustieren müssen. Topic Models können sowohl interpretativ als auch 
durch quantitative Maßzahlen validiert werden. Für eine interpretative Heran- 
gehensweise werden die Wort-Thema- und Thema-Dokument-Zuordnungen ma- 
nuell gesichtet.” Um die 15 in der beta-Matrix wahrscheinlichsten Wörter je Topic 
auszuwählen, können sie die Funktion slice max() in Kombination mit 
group _by () verwenden: 


% Hilfreich ist dafür auch das R-Package LDAvis (Sievert und Shirley 2014). 
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* topic term beta 


= 


partei 2.819818e-11 


2| | 2fparei _ 4s40670e-03 | 

3 partei 2.889160e-09 

4 partei 5.229253e-30 

5 partei 7.911224e-26 

6 partei 1.052940e-03 

7 partei 4.252028e-15 

8 partei 1.315446e-23 

9 partei 1.617310e-11 
10 partei 2.344550e-16 


Abb. 8.11 Wort-Thema-Wahrscheinlichkeit (beta-Werte). Basis: Auszug aus der Beta- 
Matrix eines Topic Models. Die Wahrscheinlichkeiten sind in wissenschaftlicher Notation 
angegeben. Hinter dem e folgt die Anzahl der Stellen, die das Komma nach links verschoben 
werden muss. (Quelle: eigene Darstellung) 


top_woerter <- lda_woerter %>% 
group_by (topic) %>% 


ae 


slice max (beta, n = 15)%> 
ungroup () 


Das wesentliche Kriterium besteht darin, ob sich die vom Algorithmus ge- 
fundenen Themen auch fiir Menschen sinnvoll interpretieren lassen. Dabei sollten 
Sie im Tibble top_woerter innerhalb eines Topic einen sinnvollen Zusammen- 
hang zwischen den Wortern erkennen und das jeweils dahinterliegende Thema be- 
nennen können (Abb. 8.12). 

Betrachtet man nun fiir die drei in der Abbildung dargestellten Topics die einzel- 
nen Worter, lassen sich durchaus sinnvolle Themen erkennen. So sind im ersten 
Block vor allem Wörter rund um Politik („cdu“, „partei“, „bundestag“) prominent, 
das Vokabular des zweiten Blocks dreht sich um die Corona-Pandemie und der 
dritte Komplex bezieht sich auf Fußball („spiel“, „trainer“, „fußball“). Das Modell 
hat also dazu geführt, die vielen Spalten der Document-Term-Matrix auf wenige 
Topics zu reduzieren. 

In einem zweiten Schritt sollten Sie überprüfen, ob sich die zugeordneten The- 
men auch tatsächlich in den Dokumenten wiederfinden. Ähnlich zu den Top- 
Wörtern, lassen sich die Top-Dokumente ermitteln: 
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1 a | 3 
cdu - virus spiel | 
merkel 1 M covid bayer | EEE 
spd 7 EEE zahl fc- 3] 
partei 7 corona spieler | 
eu 1 ii pandemie trainer 7 M 
afd] china saison | EEE 
z türkei 7 patienten spielen | E 
O grünen | infiziert liga 7 
z politik 1 EEE schulen fußball ; 
scholz 4 B dürfen platz 
europa - B quarantäne bundesliga 7 ME 
angela | (i kinder mannschaft 7 EEE 
kanzlerin 7 B maßnahmen league 7 E 
bundestag + EEE italien sieg | M 
erdogan {Hl getestet klub 1 EEE 
0.000 0.002 0.004 0.006 0.000 0.002 0.004 0.006 0.000 0.002 0.004 0.006 
beta 


Abb. 8.12 Top-15 Wörter je Thema. Basis: Auszug aus der beta-Matrix für drei Topics. 
(Quelle: eigene Darstellung) 


top _docs <- lda_ topics %>% 
group_by (topic) %>% 
slice max (gamma, n = 15) %>% 


ungroup () 


Im Tibble top_docs sind lediglich die Dokumentnummern verzeichnet. 
Wenn Sie mit dem vorbereiteten Beispieldatensatz arbeiten, können Sie die 
Dokumentennummer mit der guanteda-Funktion docid () sowie Titel und URLs 
der Dokumente mit docvars () aus der Document-Feature-Matrix auslesen, in 
einem Tibble ablegen und schließlich an top_docs joinen: 


# Liste der Dokumente aus der DFM auslesen 
docs <- tibble( 

document = docid(dfm), 

docvars(dfm, c("title", "url")) 


#... und an die Top-Dokumente anfügen 
top _docs <- left join(top_doc, docs, by = "document") 


Indem man in die einzelnen Dokumente hineinliest, stellt man fest, inwiefern 
sich das Thema im Text wiederfindet (Abb. 8.13). So lässt sich in der Abbildung 
die Zuordnung des markierten Dokuments zu einem pandemiegeprägten Topic 
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document topic gamma 
1 1614611722 1 0,9998547 
2 1646239479 1. 0.9998489 „Kein Ergebnis in der Nacht — 
3 1659072249 i 0.9998196 EU-Sondergipfel wird erneut 
verschoben. 
4 1537666415 2 0.9997657 
SE z https://www.bild.de/politik/20 
3 1598747231 Eau 20/politik/in-ergebnis-in-der- 
6 1666476432 2 09997840 nacht-eu-sondergipfel-wird- 
erneut-verlaengert- 
7 1685676107 3 0.9997900 71976554.bild.html 
8 1692353842 3 0.9997830 
9 1696350738 3 0.9997621 
10 1449657559 4) 0,9996958 


Abb. 8.13 Top-3 Dokumente je Thema. (Quelle: eigene Darstellung) 


durchaus nachvollziehen, die Dokumente drehen sich beispielsweise um einen 
Sondergipfel für ein Corona-Hilfspaket der EU. Nicht nur die Spalten, auch die 
Zeilen der Document-Term-Matrix werden also insofern zusammengefasst, als 
dass sich die Dokumente zu themenspezischen Gruppen zusammenstellen lassen. 
Topic-Modeling leistet damit sowohl die Faktorisierung der Variablen als auch ein 
Clustering der Fälle. 


8.2.3 Modelloptimierung 


Auch wenn in den bisherigen Beispielen gut nachvollziehbare Themenzuordnungen 
dargestellt sind, muss man sich beim Topic-Modeling durchaus auf uneindeutige 
Ergebnisse einstellen. In der Regel sind einige Topics gar nicht interpretierbar, 
Topic Models neigen dazu, Rauschen in den Daten in nichtssagenden Topics zu 
sammeln. Zudem führen verschiedene Parameter schnell zu recht unterschied- 
lichen Zuordnungen. Um die Stabilität und Interpretierbarkeit der Modelle zu ver- 
bessern, haben sich etliche datenbasierte Verfahren etabliert, die eine interpretative 
Herangehensweise ergänzen. Eine statistisch optimale Modellpassung ist zwar 
nicht mit guter Interpretierbarkeit gleichzusetzen (DiMaggio et al. 2013, S. 582 f.), 
entsprechende Metriken können dennoch die eigenen Entscheidungen leiten: 
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Kohärenz: Die Topic-Kohärenz nach Mimno etal. (2011) ist eine Maßzahl, mit 
der die Zusammenstellung der Wörter je Topic überprüft wird. Über die Ko- 
okkurrenz von Wörtern innerhalb eines Dokumentes wird deren semantische 
Nähe bestimmt. Spiegelt sich diese Nähe auch in einem Topic wieder, verfügt 
das Topic über einen guten Kohärenzwert. 

Perplexity: Über das Maß der Perplexity wird bestimmt, wie gut ein Modell 
generalisiert (Blei et al. 2003, S. 1008) — das heißt, wie gut es dafür geeignet ist, 
auch neue Daten richtig zu klassifizieren. Ähnlich wie beim überwachten ma- 
schinellen Lernen wird das Modell auf einem Großteil des Korpus trainiert und 
ein kleinerer Teil wird für die Validierung herangezogen. Ein niedrigerer Wert 
bedeutet, dass das Modell besser verallgemeinerbar ist. 


Diese und andere Metriken sind zur Einschätzung der Modellgüte hilfreich, sie 
geben jedoch noch keine Anleitung, wie ein zuverlässiges Modell gefunden werden 
kann. Dazu kann man verschiedene Modelle vergleichen, die Startbedingungen des 
Algorithmus bewusst setzen oder das Ergebnis umgestalten: 


Grid search: Der LDA-Algorithmus setzt voraus, dass man die Anzahl k der 
Themen sowie alpha- und eta-Werte der Verteilungen vorgibt. Die geeigneten 
Werte für diese Parameter können systematisch bestimmt werden. Hierzu legt 
man unterschiedliche Wertebereiche für die Hyperparameter wie alpha, eta oder 
k fest und berechnet für jede Kombination ein Topic Model. Anschließend wird 
diejenige Parameterkombination ausgewählt, die zu den besten Kohärenz- 
metriken oder ähnlichen Gütekriterien führt (siehe das R-Package IdaTuning 
mit Hinweisen auf weitere Metriken; Nikita und Chaney 2020). 

Prototyping: Topic Models basieren auf zufallsbasierten Prozessen, jeder 
Durchlauf kann selbst bei gleichbleibenden Parametern zu einem anderen Mo- 
dell führen. Beim Prototyping wird eine Vielzahl an Modellen gerechnet, um 
schließlich dasjenige Modell auszuwählen, das allen anderen am ähnlichsten ist 
(Rieger et al. 2020; siehe das R-Package LDAPrototype; Rieger 2021). 

Seeded LDA: Im einfachsten Fall beginnt die Modellschätzung mit einer zu- 
fälligen Zuordnung von Topics zu Wörtern. Sind bereits Informationen über die 
gesuchten Themen vorhanden, kann stattdessen eine Startkonfiguration vor- 
gegeben werden, aus dem unüberwachten wird dadurch ein semiüberwachtes 
Lernverfahren (Lu et al. 2011). 

Gewichtung der Relevanz: Unter Berücksichtigung, wie häufig ein Wort im 
gesamten Korpus vorkommt, werden Wörter hoch- bzw. heruntergewichtet, um 
die Relevanz im Korpus zu erfassen (Sievert und Shirley 2014, S. 66). 
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Darüber hinaus finden sich vielfältige Weiterentwicklungen von Topic Models für 
spezifischere Anwendungsfälle bzw. Erweiterungen der Modelle auf Basis von theo- 
retischen Annahmen (siehe Rob & Singh 2022). Dazu zählen Varianten, die sich vom 
Bag-of-Words-Ansatz lösen und die Reihenfolge von Wörtern berücksichtigen (Wal- 
lach 2006), die Korrelationen zwischen Topics einbeziehen (Correlated Topic Models 
CTM; Blei und Lafferty 2007) oder die weitere textexterne Variablen wie die Quelle 
der Dokumente einberechnen (Structural Topic Models STM; Roberts et al. 2016). 


Übungsfragen 


1. Sie haben einen Datensatz mit Kennzahlen zu Kunstwerken. Nun wollen Sie 
die Kunstwerke nach Epochen zusammenfassen. Wenden Sie dafür eher ein 
Clusterverfahren oder eher eine Faktorenanalyse an? 

2. Sie haben einen annotierten Datensatz mit Zeitungsartikeln, denen die The- 
men „Politik“, „Wirtschaft“, „Sport“, „Unterhaltung“ zugeordnet sind. Wen- 
den Sie ein überwachtes oder ein unüberwachtes Lernverfahren an, um auto- 
matisiert weitere Artikel nach Themen zu sortieren? 

3. Topic Models sind Mixed-Membership-Modelle, die auf einem Bag-of- 
Words-Ansatz beruhen. Umschreiben Sie diesen Satz in Ihren eige- 
nen Worten! 

4. Ein Wort in Ihrem Korpus hat einen beta-Wert von 0,01 in Bezug auf Topic 
1 und einen beta-Wert von 0,06 in Bezug auf Topic 2. Was bedeutet das? 
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Zusammenfassung 


Dieses Kapitel führt in die automatisierte Textanalyse ein. Sie lernen, wie man 
Wortfrequenzanalysen durchführt und Texte mithilfe von Diktionären analysiert. 
Zudem werden grundlegende Konzepte von automatisierten Inhaltsanalysen 
sowie von Natural Language Processing vorgestellt. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


Wortfrequenzanalyse - Tokenisierung - Kookkurrenz - Kollokation - Tf-idf - 
N-Gramme - Diktionärsbasierte Inhaltsanalyse - Sentimentanalyse - 
Dependenzparsing - POS-Tagging - Natural Language Parsing - 

Quanteda - SpaCy 


Menschen nutzen Sprache, um ihrem Leben Bedeutung zu geben. In den Sozial- 
und Geisteswissenschaften sind sprachliche Daten deshalb ein zentraler Unter- 
suchungsgegenstand. Dabei kann es sich um extra für wissenschaftliche Zwecke 
erhobene Daten wie Interviews handeln, aber auch um Dokumente wie Pressemit- 
teilungen, Inschriften auf Grabsteinen oder Postings auf Sozialen Netzwerkseiten. 
Mit automatisierten Textanalysen lässt sich die Bedeutung von Sprache zwar nur 
auf einer formalen Ebene erfassen, das aber kann sehr hilfreich sein. So können aus 
Wörtern und Sätzen systematisch Erkenntnisse destilliert werden, insbesondere um 
sich einen Überblick über unübersichtliche oder umfangreiche Textsammlungen zu 
verschaffen. 

In Bezug auf Text lassen sich drei verschiedene Bereiche unterscheiden, bei 
denen Computer eine Rolle spielen (siehe auch Krippendorff 2013, S. 213): 


1. Textanalyse: Texte können in ihre Bestandteile zerlegt und dann deskriptiv be- 
schrieben werden. Hierzu zählen Verfahren wie Wortfrequenzanalyse (die 
Häufigkeit von Wörtern wird ausgezählt), Kollokationsanalysen (das ge- 
meinsame Auftreten von Wörtern wird ausgezählt) oder Keyword-in-Context- 
Analysen (KWIC; die Umgebung von Schlüsselwörtern wird angezeigt). Ge- 
meinsam ist diesen Verfahren, dass sie im Wesentlichen auf der Ebene von Text- 
formen arbeiten, also Wörter ohne weitere Bedeutungszuschreibung und häufig 
auch ohne Berücksichtigung von Syntax — damit sind die sprachlichen Be- 
ziehungen zwischen den Wörtern und Zeichen gemeint — verarbeiten. Aus 
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sprachwissenschaftlicher Sicht fallen diese Verfahren in den Bereich der 
Korpuslinguistik. 

Inhaltsanalyse: Im sozialwissenschaftlichen Kontext sind haufig latente Kon- 
strukte von Interesse, die im Zuge von Inhaltsanalysen mit manifesten Merkma- 
len gemessen werden (Merten 1995, S. 59). Ausgehend von Eigenschaften auf 
der Textoberfläche muss dann auf semantische oder pragmatische Sinngehalte 
geschlossen werden. Sentimentanalysen unterstellen beispielsweise, dass be- 
stimmte Wörter als Indikatoren für positive oder negative Einstellungen stehen. 
Auch wenn ein Korpus auf eine geringe Menge an Themen reduziert werden 
soll (Clustering, Topic Modeling, siehe Abschn. 8.2), ist man auf der Suche 
nach den datengenerierenden Prinzipien hinter einem Text. Damit ist gemeint, 
dass nicht der Text selbst von Interesse ist, sondern die menschlichen Ver- 
haltensweisen, die einen Text hervorgebracht haben oder die ein Text auslöst. 
Annotation & Edition: Während bei Text- oder Inhaltsanalysen Teile der Ana- 
lyse automatisiert werden, setzen insbesondere interpretative bzw. hermeneuti- 
sche Verfahren auf intellektuelle Interpretation. Computer unterstützen dabei 
die Aufbereitung von Texten oder sind ein Hilfsmittel, um relevante Textstellen 
zu identifizieren, die dann manuell interpretiert werden. In den Geisteswissen- 
schaften werden Editionen von Texten beispielsweise mit Oxygen als XML- 
Dokumente aufbereitet (SyncroSoft 2022). In den Sozialwissenschaften wird 
üblicherweise Software wie MAXQDA (VERBI Software 2021) oder ATLAS. 
ti (ATLAS.ti 2022) zur Organisation von Textkorpora eingesetzt. Textstellen 
werden markiert und verschlagwortet, diese sogenannten Codes oder An- 
notationen wiederum kommentiert. 


vielen Studien und Tools werden automatisierte und interpretative Verfahren 


kombiniert (Jünger et al. 2022). Im Folgenden geht es allerdings zunächst um die 
ersten beiden Punkte, das heißt um Textanalysen und Inhaltsanalysen. 


9.1 Wortfrequenzanalysen 


Wir lernen im Kindesalter, Sprache zu sprechen und gesprochene Sprache zu ver- 
stehen. Um gehörte Laute und gelesene Grapheme als Zeichen mit einer Bedeutung 


zu erkennen, ist ein jahrelanger, komplexer Lernprozess nötig. Zudem ist Sprache 


vielfältig und verändert sich fortlaufend, sodass die automatische Erkennung mit 


Computern keine leichte Aufgabe ist. Die Komplexität von Sprache kann für 


358 9 Textanalyse 


maschinenbasierte Analysen reduziert werden, indem Texte zunächst als An- 
sammlung von Wörtern behandelt werden — man spricht dann vom Bag-of- 
Words-Ansatz. 

Um die Anzahl von Wörtern in einem Text zu ermitteln, wird zwischen Types 
und Token unterschieden (Peirce 1906, S. 506). Token (auch Terms genannt) be- 
zeichnen dabei das konkrete Auftreten von Wörtern in einem Text — also aus wie 
vielen Einzelwörtern ein Text besteht. Die Types geben dagegen die verschiedenen 
Wortarten an — also aus wie vielen unterschiedlich geschriebenen Wörtern ein Text 
besteht. Die Sätze „Furcht ist der Pfad zur dunklen Seite. Furcht führt zu Wut, Wut 
führt zu Hass, Hass führt zu unsäglichem Leid.“ bestehen beispielsweise aus 20 
Token und 13 Types.' Ein Datenformat, mit dem Types und Token erfasst werden 
können und das häufig die Grundlage für automatisierte Textanalysen ist, stellt die 
Document-Term-Matrix (allgemein auch Document-Feature-Matrix genannt) dar. 
In dieser Matrix ist jedes Dokument, etwa jeder Satz oder jeder Text, in einer Zeile 
erfasst. Die Spalten bestehen aus den Wörtern des gesamten untersuchten Korpus. 
In den Zellen ist dann festgehalten, ob bzw. wie oft ein Wort in einem Dokument 
auftaucht (Tab. 9.1). 

Dass durch die statistische Behandlung von Text Informationen verloren gehen, 
ist offenkundig. Im Gegensatz zum menschlichen „close reading“, bei dem die 
konzentrierte und schrittweise Lektüre von Äußerungen nach und nach zu einer 
Interpretation führt, geht es beim automatisierten „distant reading“ umgekehrt 
darum, aus aggregierten Verteilungen und Strukturen Sinn zu destillieren. Diese 
Vorgehensweise hat in der Literaturwissenschaft einen kritischen Diskurs in Gang 
gesetzt. Der Literaturwissenschaftler Franco Moretti, der diese Methoden populär 
gemacht hat, beschreibt eine solche Form der Analyse als „a little pact with the 


Tab. 9.1 Eine Document-Term-Matrix 


€ 
v 
g 5 
Š Ee “Sp 
g 9 2 ig vy | g 2 
doc_id s/3/4/3]ale/3)2) 2) 2) 2] 2] s 
Satz 1 1 1 0 1 0 1 0 1 1 0 0 0 1 
Satz 2 0 0 3 1 2 0 1 0 0 1 2 3 0 


Quelle: eigene Darstellung 


! Alternativ kann man auch zwölf Types zählen, wenn man die Ausprägungen „zu“ und „zur“ 
als ein Wort betrachtet. 
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devil: we know how to read texts, now let’s learn how not to read them“ (Moretti 
2013, S. 48). Sprachliche Äußerungen werden teilweise so in Einzelteile zerlegt, 
dass die Reihenfolge und die Zusammenhänge zwischen den Wörtern verloren 
gehen. Eine Filmkritik wie „nicht gut, sehr langweilig“ wird damit in die Wörter 
„nicht“, „gut“, „sehr“ und „langweilig“ zerteilt. Betrachtet man nur das reine Vor- 
kommen der Wörter, dann ist dies gleichwertig zu „nicht“, „langweilig“, „sehr“ 
und „gut“. Zählt man die Adjektive in diesen Texten aus, würde die Anzahl für 
„gut“ und für „langweilig“ in beiden Fällen gleich sein. 

Trotz des Informationsverlustes, oder vielleicht sogar gerade wegen der Kon- 
zentration auf die wesentlichen bedeutungstragenden Teile eines Textes, lassen 
sich allein mit Wortfrequenzanalysen durchaus hilfreiche Einsichten gewinnen. So 
kann man sich einen schnellen Überblick über umfangreiche Korpora verschaffen. 
Für diese Analysen gibt es spezialisierte Programme wie AntConc (Anthony 2022) 
und Sketch Engine (Lexical Computing 2022). Sie lassen sich aber auch mit 
Statistiksoftware wie R oder Python (siehe Kap. 5) umsetzen. Während auf Text- 
analyse zugeschnittene Programme einen guten Einstieg erlauben und durch die 
Benutzeroberflächen typische Analysen vorgeben, gewinnt man durch 
Programmiersprachen eine hohe Flexibilität, muss dafür aber jede einzelne Ent- 
scheidung bei der Textverarbeitung selbst treffen. Das folgende R-Skript verdeut- 
licht zunächst einige typische Schritte, die in dieser oder ähnlicher Form am Be- 
ginn jeder Textanalyse stehen. 


Schritt 1: Texte einlesen Im Gegensatz zu fertigen Datensätzen liegen Text- 
korpora häufig als einzelne Textdateien oder auch als Word- oder PDF-Dateien 
vor. Diese Dateien lassen sich mit der Funktion readtext () aus dem gleich- 
namigen Package einlesen (Benoit et al. 2021). Angenommen alle Dateien lie- 
gen als UTF8-kodierte Textdateien (siehe Abschn. 3.2) vom Projektverzeichnis aus 
gesehen im Unterordner korpus, dann können sie wie folgt eingelesen werden 
(@ Repositorium): 


library (readtext) 
texte <- readtext ("korpus", encoding = "UTF-8") 


Das Ergebnis ist eine Tabelle mit den Dateinamen in der ersten Spalte und dem 
Inhalt der jeweiligen Datei in der zweiten Spalte (Tab. 9.2). Schauen Sie sich für 


? Das Beispielkorpus umfasst 77 kurze Texte von Studierenden zu der Frage, wie sie den Um- 
gang mit Daten durch Online-Unternehmen einschätzen. 
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Tab. 9.2 Ausschnitt des eingelesenen Textkorpus in RStudio 


doc_id text 

RF1.txt Die Angabe, die am haufigsten zu Verwendung der weite... 
RF10.txt Bei der Nutzung vieler Internetdienste werden private... 
RF11.txt Die Nutzung digitaler Internetplattformen ist heutzut... 
RF12.txt Seit der neuen Datenschutzordnung fällt insbesondere... 
RF13.txt Die Nutzung von Suchmaschinen wie Google oder Unt... 
RF14.txt Die persönlichen Daten werden von den jeweiligen Plat... 
RF15.txt Durch die Nutzung von Internetdiensten werden viele D... 
RF16.txt Ich denke, dass die bei Google, Facebook & Co. anfall... 
RF17.txt Die Datenverbreitung im Internet findet im Hintergund... 


Quelle: Eigene Darstellung basierend auf dem Beispielkorpus (® Repositorium) 


diese und die im Folgenden verwendeten Funktionen die Hilfe an.” Es gibt zahl- 
reiche Optionen für vielfältige Eventualitäten. 


Schritt 2: Texte tokenisieren Im nächsten Schritt werden die Texte in einzelne 
Sätze, Wörter oder andere Einheiten zerlegt. Die einzelnen Einheiten werden 
Token genannt, der Vorgang entsprechend Tokenisierung. Eine gute Wahl für erste 
eigene Versuche ist die Funktion unnest_token () aus dem Package tidytext 
(Silge und Robinson 2016). Der erste Parameter gibt den Dataframe mit den Texten 
an. Der zweite Parameter bestimmt den Namen der Output-Variable, das heißt, wie 
die Spalte mit den einzelnen Wörtern heißen soll. Der dritte Parameter bestimmt 
schließlich den Namen der Input-Spalte, die den zu zerlegenden Text enthält: 


library (tidytext) 
woerter <- unnest_tokens (texte, wort, text) 


Aus dem oben angeführten Beispiel wird eine neue Tabelle erstellt. Der Datei- 
name bleibt in der ersten Spalte doc_id erhalten, in der zweiten Spalte wort 
werden untereinander die einzelnen Wörter der entsprechenden Datei aufgeführt 
(Tab. 9.3). 

Diese Funktion kann auch dazu genutzt werden, den Text in größere Einheiten 
wie Sätze sowie in kleinere Einheiten wie Zeichen zu zerlegen. Dafür wird 


Platzieren Sie den Cursor auf dem Funktionsnamen und drücken Sie die Taste F1. Oder 
stellen Sie vor den Befehl ein Fragezeichen und führen Sie den Befehl aus, zum Beispiel 
?readtext. 
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Tab. 9.3 Ausschnitt des Outputs nach der Tokenisierung von Texten in Wörter 


doc_id wort 

RF1.txt die 

RF1.txt angabe 

RF1.txt die 

RF1.txt am 

RF1.txt haufigsten 
RF1.txt zu 

RF1.txt verwendung 
RF1.txt der 

RF1.txt weitergegebenen 


Quelle: Eigene Darstellung 


innerhalb der Funktion der Parameter token verwendet (zum Beispiel token= 
"sentence"); voreingestellt ist dieser Parameter auf token="words".* 


Schritt 3: Texte bereinigen Im Zusammenhang mit der Tokenisierung werden 
die Daten häufig bereinigt. Typischerweise zählen dazu folgende Schritte, die aber 
an die konkrete Fragestellung angepasst werden müssen: 


Groß- oder Kleinschreibung: Durch die Funktion unnest_token () wer- 
den alle Wörter in Kleinschreibung umgewandelt. Das ist in der Regel sinnvoll, 
da etwa Adjektive am Satzanfang großgeschrieben werden, ohne dass dies 
einen inhaltlichen Unterschied zu kleingeschriebenen Wörtern innerhalb eines 
Satzes darstellt. Für ein Computerprogramm würde es sich sonst um zwei unter- 
schiedliche Zeichenfolgen handeln. 

Mit dem Parameter to_ 1] ower=F kann die Voreinstellung verändert werden. 
Falls die Daten erst später in Kleinschreibung umgewandelt werden sollen, hilft 
die Funktion str_to_lower () aus dem Package stringr weiter (Wickham 
2019a). Das folgende Beispiel bettet diese Funktion in ein typisches Tidyverse- 
Muster mit Zuweisungsoperator <-, Pipe 3>% und mutate () -Funktion ein 
(siehe Abschn. 5.1): 


*Voreingestellte Parameter (engl. default values) müssen nicht extra angegeben werden, 
lediglich wenn Sie diese abändern wollen. Welche Parameter in einer Funktion bereits mit 
einer Voreinstellung belegt sind, entnehmen Sie der Hilfe. 
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woerter <- woerter %>% 
mutate (wort = str_to_lower (wort, locale = "de")) 


Die Angabe locale="de" stellt zusätzlich sicher, dass Umwandlungskon- 
ventionen an der deutschen Sprache orientiert sind. 

e Zahlen und Sonderzeichen: Auch die anderen Funktionen aus dem Package 
stringr sind sehr hilfreich für die Aufbereitung von Texten. Zahlen und Sonder- 
zeichen lassen sich bei Bedarf mit regulären Ausdrücken (siehe Abschn. 4.1.1) 
entfernen. Der Ausdruck [0-9] + würde zum Beispiel alle Zahlen finden oder 
der Ausdruck * [a-zäöüß]+$ alle Zeichenketten, die von Anfang (Caret ^) 
bis Ende (Dollar $) ausschließlich aus den angegebenen Kleinbuchstaben be- 
stehen. In Kombination mit den Funktionen filter () zum Filtern von Zeilen 
und str_detect () zum Entdecken der Zeichenketten lassen sich mit die- 
sem Ausdruck alle Wörter mit Sonderzeichen entfernen (bzw. diejenigen ohne 
Sonderzeichen behalten): 


woerter <- woerter %>% 
filter (str_detect (wort, "*[a-zäüöß]+$")) 


¢ Stoppworter: Die häufigsten Wörter in einem Text sind häufig am wenigsten 
interessant. Dazu zählen vor allem Artikel wie „der“ oder „ein“. Diese für eine 
Analyse unbedeutenden Wörter werden Stoppwörter genannt und in der Regel 
vor der Auswertung entfernt. Eine Liste typischer deutscher Stoppwörter liefert 
die Funktion stopwords () aus dem gleichnamigen Package (Benoit, Muhr 
und Watanabe 2021): 


library (stopwords) 
stopwords ("de") 


Die ersten neun Stoppwörter in dieser Liste lauten: 


[1] "aber" "alle" "allem" 
[4] "allen" "aller" "alles" 
[7] "als" "also" "am!" 


Eine Möglichkeit zum Abgleich der Wörtertabelle mit einer solchen Liste be- 
steht darin, die Liste der Stoppwörter zunächst in ein Dataframe bzw. Tibble 
umzuformen: 
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stoppwoerter <- tibble (wort = stopwords ("de")) 


Anschließend kann ein anti_join () ° verwendet werden, um nur diejenigen 
Datensätze zu behalten, die nicht in der Stoppworttabelle enthalten sind. Im 
Beispiel wird die Spalte wort in beiden Tabellen so abgeglichen, dass in der 
Wörtertabelle nur Zeilen beibehalten werden, die nicht in der Stoppworttabelle 
zu finden sind: 


woerter <- woerter %>% 
anti join (stoppwoerter, by = "wort") 


Diese Technik kann auch verwendet werden, um eine eigene Liste mit Stopp- 
wörtern einzubinden. Dazu können Sie die Stoppwörter als CSV-Datei anlegen, 
in R einlesen und mit dem tokenisierten Datensatz abgleichen. 

e Stemming und Lemmatisierung: Wenn man nicht an den konkreten Wort- 
formen interessiert ist, sondern nur an den semantischen Dimensionen, wird 
man die Wörter in der Regel auf ihren Wortstamm reduzieren. Dieses so- 
genannte Stemming entfernt grammatisch bedingte Endungen. So wird aus den 
Wörtern „Hauses“ und „Häusern“ das Wort „Haus“ oder aus den Verben „läuft“ 
und „laufen“ wird „lauf“. Das Package SnowballC (Bouchet-Valat 2020) liefert 
eine entsprechende Funktion für die deutsche Sprache: 


library (SnowballC) 
woerter <- woerter %>% 
mutate (stem = wordStem(wort, language = "de")) 


Anstelle von Stemming wird mitunter eine Lemmatisierung vorgenommen. Der 
Unterschied besteht darin, dass alle Wörter nicht auf den Stamm, sondern auf 
die Grundform zurückgeführt werden. So wird aus „läuft“ der Infinitiv „lau- 
fen“, was sich bei der Ausgabe leichter interpretieren lässt. 

e Relative pruning: Statt festgelegte Stoppwörter zu entfernen, können die häu- 
figsten und seltensten Wörter entfernt werden und zum Beispiel nur Wörter bei- 
behalten werden, die in mindestens 1 % und maximal 99 % der Texte vorkommen. 
Insbesondere wenn statistische Modelle (z. B. Topic Modeling, siehe Abschn. 8.2) 
erstellt werden, ist dieser Schritt sinnvoll. Denn Wörter, die in sehr vielen Texten 


>Siehe Abschn. 4.2.2 für unterschiedliche Möglichkeiten, Daten über Joins zusammen- 
zuführen. 
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vorkommen, können nicht zur Unterscheidung der Texte verwendet werden. 
Wenn Modelle darauf aufbauen, dass Wörter gemeinsam in einem Dokument auf- 
treten (Kookkurrenz, siehe unten), sollten auch die sehr seltenen Wörter entfernt 
werden, denn sie eignen sich nicht gut zur Schätzung typischer Kombinationen. 
Zum Bestimmen der häufigen und seltenen Wörter können die im Folgenden be- 
schriebenen Verfahren zum Auszählen der Wörter verwendet werden. 


Mit diesen fünf Aufbereitungsschritten gehen einerseits Informationen verloren. 
Andererseits wird der Text bereits auf wesentliche Elemente reduziert. Weitere 
teils aufwendigere Maßnahmen zur Textaufbereitung umfassen die Auflösung von 
Synonymen oder die Desambiguierung gleichlautender Wörter. Auch eine Kate- 
gorisierung von Wortarten ist mitunter angebracht (POS-Tagging, siehe unten). 


Schritt 4: Wörter auszählen Ist ein Text erst einmal in die Form eines Daten- 
satzes überführt und aufbereitet worden, kann die Auswertung mit statistischen 
Funktionen beginnen. Am einfachsten ist das Auszählen von Worthäufigkeiten: 


woerter %>% 
count (wort, sort = T) 


Der Parameter sort=T sorgt dafür, dass die häufigsten Wörter zuerst aus- 
gegeben werden (Tab. 9.4). 

Da es sich hierbei um einen Dataframe handelt, kann das Ergebnis in einem 
neuen Objekt abgelegt und bei Bedarf als CSV-Datei exportiert werden. Das 
Ergebnis kann auch für Visualisierungen verwendet werden. Welche Wörter in 


Tab. 9.4 Die häufigsten Wörter im Beispielkorpus 


wort n 
daten 347 
dass 167 
werbung 90 
internet 78 
nutzer 62 
dritte 58 
weitergegeben |48 
google 45 
jedoch 43 
youtube 43 


Quelle: Eigene Darstellung 
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einem Korpus besonders häufig auftauchen, lässt sich schnell in Wordclouds er- 
kennen. Das Package ggwordcloud (Le Pennec und Slowikowski 2019) ist eine 
Erweiterung des Visualisierungspackages ggplot2, mit dem solche Wordclouds in 
R erstellt werden können (siehe Abschn. 5.1.5). Damit die Grafik nicht mit allen 
Wörtern des Korpus überladen wird, lohnt es sich, nur die häufigsten Wörter ab- 
zubilden. Mit der Funktion slice head() lässt sich der Output der 
count () -Funktion auf die oberen Zeilen einschränken - beispielsweise durch die 
Angabe n = 50 auf die Top-50 der häufigsten Wörter: 


topterms <- woerter %>% 
count (wort, sort = T) 
slice head(n = 50) 


Die Wordcloud kann anschließend als ggplot2-Grafik erstellt werden. Dabei wer- 
den, wie bei ggplot2 üblich, zunächst über die Funktion aes () die Daten den visuel- 
len Merkmalen zugeordnet. Die Wörter werden als label übergeben. Der optionale 
Parameter size legt fest, wovon die Größe der Wörter in der Wordcloud abhängen 
soll - im Beispiel von den ausgezählten Häufigkeiten n, sodass häufigere Wörter grö- 
Ber dargestellt werden als seltenere Wörter. Über den Parameter color lässt sich die 
Farbe zuordnen. An diese Ausgangsdefinition werden mit einem + weitere Schichten 
der Grafik angehängt. Die Verwandlung in eine Wordcloud übernimmt die Funktion 
geom text _wordcloud (). Es folgen weitere Formatierungen, im Beispiel die 
maximale Größe der Wörter und das Theme mit einer Angabe der Basisschriftgröße: 


topterms %>% 


ggplot (aes (label = wort, size = n, color = n)) + 
geom text _wordcloud() + 


scale size area(max size = 15) + 
theme _bw (base size = 10) 


Die Wordcloud wird in RStudio ausgegeben und kann mithilfe der Funktion 
ggsave () abgespeichert werden (Abb. 9.1). 


Schritt 5: Kookkurrenz Eine einfache Häufigkeitsanalyse ist vor allem ver- 
gleichend interessant, etwa um in der Berichterstattung den Wandel der Themen und 
des Sprachgebrauchs über Jahrzehnte zu verfolgen oder wenn man die Öffentlich- 
keitsarbeit von Organisationen (PR) der publizistischen Berichterstattung (Journalis- 
mus) gegenüberstellen will. Aufschlussreich ist aber nicht nur der Vergleich ver- 
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schon dadurch allerdings 


häufig nachteile genutzt 
erlaubtyieleacebook Weitergabe Meinung nutzung 


genau firmen eaaguneme’ g asSmehrimmer soten 


personbeispiel q gespeichert online 
eigenen formationen. tedaten Nnutzer dienste Yen. on 
denke weitergegeben alen google i 


vorteile möchte 
whatsapp vorteil youtubeoft unternehmen ~ 


menschen 
internetdienste panamano beispielsweise 


Abb. 9.1 Wordcloud mit den häufigsten 50 Wörtern des Beispielkorpus. (Quelle: eigene 
Darstellung) 


schiedener Dokumente untereinander, sondern auch der Zusammenhang von 
Wörtern innerhalb der Texte. Eine einfache Analysemöglichkeit besteht darin, das 
gemeinsame Auftreten von Wörtern in einem Dokument auszuzählen (Ko- 
okkurrenz).° Nach der Tokenisierung liegt zunächst eine lange Tabelle vor, in der in 
einer Spalte doc_id der Dateiname des Statements und in einer anderen Spalte 
wort das Wort steht. Nun kann mit der Funktion pairwise count () aus dem 
widyr-Package ausgezählt werden, in wie vielen Dokumenten verschiedene Wörter 
gemeinsam vorkommen (Robinson et al. 2021): 


library (widyr) 
kookkurrenz <- woerter %>% 


pairwise count (wort, doc_id) 


Sortiert man das Ergebnis nach der Häufigkeit, offenbaren sich typische Zu- 
sammenhänge. Im Beispiel (Tab. 9.5) zeigt sich, dass die Begriffe „daten“ und 
„werbung“ sehr häufig zusammen auftreten. 

Diese reine Häufigkeitsauszählung sagt noch wenig darüber aus, ob die häufi- 
gen Wörter oder die gefundenen Kookkurrenzen in dem Sinne bedeutsam sind, 
dass sie häufiger sind als typischerweise zu erwarten wäre. Das lässt sich hier gut 
daran erkennen, dass Wörter wie „dass“ oder „jedoch“ sehr häufig in Kombination 
mit anderen Wörter vorkommen — die verwendete Stoppwortliste ist im Beispiel 
nicht ideal.’ So ist es wahrscheinlich, dass auch im alltäglichen Sprachgebrauch 
das Wort „dass“ häufig verwendet wird und dementsprechend auch häufig mit dem 


6 Auf dieser Grundlage lassen sich auch Netzwerke erstellen, siehe Kap. 10. 
7Die Anzahl wird durch Matrixmultiplikation berechnet, siehe Abschn. 4.2. 
’Passen Sie das Skript so an, dass diese Wörter bei der Aufbereitung entfernt werden! 
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Tab. 9.5 Kookkurrenz von Wörtern im Beispielkorpus (Auszug) 


item1 item2 n 

dass daten 61 
daten dass 61 
werbung daten 45 
daten werbung 45 
dritte daten 42 
daten dritte 42 
internet daten 38 
werbung dass 38 
dass werbung 38 
daten internet 38 
nutzer daten 37 
daten nutzer 37 
weitergegeben daten 35 
nutzer dass 35 
daten weitergegeben 35 
dass nutzer 35 
jedoch daten 34 
dritte dass 34 
daten jedoch 34 


Quelle: Eigene Darstellung 


Wort „daten“ zusammen auftritt — ohne dass dies direkt auf eine Anomalie hin- 
deutet. Neben inferenzstatistischen Verfahren, bei denen die statistische Signi- 
fikanz geprüft wird, lässt sich die Auffälligkeit von einzelnen Wörtern mittels Tf- 
idf-Werten und die Bedeutsamkeit von Kookkurrenzen mithilfe von PMI-Werten 
berechnen. 

Das Tf-idf-Maß gibt an, wie spezifisch ein Wort für jedes einzelne Dokument 
ist, sodass sich je Dokument die im Vergleich zu allen anderen Dokumenten 
auffälligen Wörter bestimmen lassen. Der Wert setzt sich aus der Häufigkeit eines 
Wortes in einem Dokument (tf = term frequency) und der Häufigkeit aller Doku- 
mente mit diesem Wort (df = document frequency) zusammen. Je höher die Term 
Frequency ist, umso häufiger kommt das Wort in einem Dokument vor. Ein Wert 
von 0,06 für das Wort „anzeigen“ in Dokument 31 besagt, dass dieses Wort 6 % 
aller Wörter in diesem Dokument ausmacht (Tab. 9.6). Die Document Frequeny 
gibt an, in wie vielen Dokumenten des Korpus das Wort enthalten ist und wird 
durch Logarithmieren und Invertieren (idf = inverse document frequency) zu einem 
Gewichtungsfaktor umgerechnet, der dann mit der Term Frequency multipliziert 
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Tab. 9.6 Beispiele für Tf-idf-Werte in einem Beispielkorpus zum Thema Daten 


wort doc_id n tf idf tf_idf 
anzeigen RF31.txt 7 0,062 2,958 0,183 
empfänger RF38.txt 2 0,039 4,344 0,170 
gezielte RF35.txt 3 0,046 3,651 0,168 
verwendung RF47.txt 3 0,052 2,958 0,153 
evtl RF47.txt 2 0,034 4,344 0,150 
datenweitergabe RF47.txt 3 0,052 2,734 0,141 
zielgruppenorientierte RF16.txt 2 0,030 4,344 0,132 
finde RF3.txt 3 0,045 2,734 0,124 
versicherung RF6.txt 2 0,029 4,344 0,124 
erlaubt RF47.txt 4 0,069 1,705 0,118 
kaufverhalten RF38.txt 2 0,039 2,958 0,116 
minimal RF41.txt 3 0,026 4,344 0,114 
konto RF22.txt 3 0,026 4,344 0,112 


Die Tf-idf-Werte sind absteigend sortiert. (Quelle: Eigene Darstellung) 


wird.’ Je höher dieser Gewichtungsfaktor ist, desto seltener ist das Wort in allen 
Dokumenten. Dadurch werden die seltenen Wörter hochgewichtet und die sehr 
häufigen Wörter heruntergewichtet. Das daraus hervorgehende Tf-idf-Maß ist dann 
umso höher, je spezifischer das Wort für das Dokument ist. 

Auf diese Weise lassen sich in den einzelnen Dokumenten die jeweils bedeut- 
samen Wörter bestimmen. Ein hoher Tf-idf-Wert für das Wort „datenweitergabe“ 
in Text 47 würde besagen, dass dieser Text sich anders als die anderen Texte be- 
sonders mit diesem Aspekt beschäftigt. Gleichzeitig erhalten gängige und unspezi- 
fische Wörter wie „dass“ oder „jedoch“ einen geringen Wert, weil sie in einer Viel- 
zahl von Dokumenten vorkommen. Darüber lassen sich also auch nach der 
Datenaufbereitung weitere korpusspezifische Stoppwörter identifizieren und ggf. 
ausfiltern. Interessant ist eine solche Berechnung vor allem dann, wenn man ver- 
schiedene Artikel vergleichen oder besonders relevante Artikel identifizieren will. 

In R hilft das Package tidytext bei der Berechnung von Tf-idf. Grundlage ist 
zunächst, dass man die Anzahl der Wörter je Dokument auszählt, dann kann die 
Funktion bind_tf_idf() daraus die entsprechenden Werte berechnen: 


tfidf <- woerter %>% 
count (wort, doc _id) %>% 
bind tf idf(wort, doc _ id, n) 


°Eine Erläuterung der Berechnung findet sich beispielsweise in Silge und Robinson 
(2017), Kap. 3. 


9.1 Wortfrequenzanalysen 369 


Tf-idf quantifiziert damit die Beziehung zwischen Dokumenten und Wörtern. In 
Bezug auf auffällige Kookkurrenzen, das heißt die Beziehung zwischen zwei Wör- 
tern, ist dagegen die Berechnung von Pointwise Mutual Information (PMD) hilfreich 
(siehe auch Bouma 2009). Ein hoher PMI-Wert besagt, dass zwei Wörter häufiger 
gemeinsam auftreten als zu erwarten wäre. Auch hierfür wird das gesamte Korpus 
als Vergleichsmaßstab herangezogen. Nehmen wir an, ein Korpus besteht aus 5000 
Wörtern, das Wort „daten“ kommt darin 100-mal vor und das Wort „computer“ 50- 
mal. Dann beträgt die Auftretenswahrscheinlichkeit für „daten“ 100/5000 = 0,02. 
Die Auftretenswahrscheinlichkeit für „computer“ liegt bei 50/5000 = 0,01. Die 
Wahrscheinlichkeit, dass beide Wörter gemeinsam auftreten, kann dann durch 
Multiplikation berechnet werden und beträgt also 0,02 x 0,01 = 0,0002. Kommt 
diese Kombination nun aber tatsächlich häufiger vor, so ist sie potenziell bedeutsam. 
Um die Bedeutsamkeit zu quantifizieren, wird die tatsächliche zur erwarteten Wahr- 
scheinlichkeit ins Verhältnis gesetzt. Durch Logarithmieren wird das Verhältnis 1,0 
(wenn die Wahrscheinlichkeiten gleich sind) zu einem PMI von 0, Verhältnisse da- 
runter werden zu negativen und darüber zu positiven Werten. 

Die PMI kann zum einen auf Grundlage von Kookkurrenz in Dokumenten be- 
rechnet werden, aber auch auf Grundlage von Wortkombinationen. Solche Wort- 
kombinationen werden als N-Gramme bezeichnet, wobei das N die Anzahl der 
Wörter angibt. Ein Unigram oder 1-Gram bezeichnet einzelne Wörter, ein Bigram 
oder 2-Gram die Abfolge von zwei Wörtern und ein Trigram bzw. 3-Gram die Se- 
quenz aus drei Wörtern. Bei der Tokenisierung von Text lassen sich demnach 
nicht nur Unigramme erzeugen, sodass jedes Wort getrennt wird, sondern auch 
andere N-Gramme. Auf diese Weise geraten die syntaktischen Zusammenhänge 
zwischen Wörtern etwas stärker in den Blick; der Bag-of-Words-Ansatz wird ge- 
lockert, indem Wortkombinationen analysiert werden. 

Wie bei der Kookkurrenz von Wörtern in einem Dokument lässt sich berechnen, 
inwiefern Bigramme häufiger vorkommen als zu erwarten wäre. Eine solcher- 
maßen signifikante Wortkombination wird auch Kollokation genannt. Bei der prak- 
tischen Umsetzung kann man zweistufig vorgehen und zunächst die Bigramme 
extrahieren und nummerieren. Anschließend werden die Bigramme wieder in 
einzelne Wörter zerlegt, um die Kookkurenz der Wörter innerhalb der Bigramme 
auszuzählen: 


Wenn nicht unmittelbar zusammenhängende Wörter, sondern der weitere Kontext be- 
trachtet werden soll, können auch Skip-Gramme eingesetzt werden. Dabei werden während 
der Tokenisierung Wörter übersprungen (engl. skipped). Neben der Angabe, um welches 
N-Gram es sich handelt, wird über den Parameter K angegeben, wie viele Wörter maximal 
übersprungen werden dürfen. Der Anfang des vorigen Satzes kann beispielsweise mit einem 
K von 3 in die Skip-Gramme „Neben der“, „Neben Angabe“, „Neben um“ sowie „Neben 
welches“ unterteilt werden. 
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# Bigramme extrahieren 


bigrams <- texte % 


unnest_tokens (bigram, text, token 


>% 


# Kollokationen zählen 


bigrams <- bigrams 
mutate (bigram_no 
unnest_tokens (wo 


%>% 
= row_number ()) 


oso 
CP 


rt, bigram) 


pairwise count (wort, bigram_no) 


= i 


oye 
%>% 
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ngrams", n = 2) 


Daraus lassen sich dann der Anteil des Bigrams am Korpus, der Anteil der 
einzelnen Wörter an allen Wörtern und schließlich die Pointwise Mutual Informa- 
tion berechnen. Das tatsächliche Auftreten eines Bigrams wird wieder ins Verhält- 
nis zum zufällig erwartbaren Auftreten gesetzt, welches auf Grundlage geschätzter 
Einzelwahrscheinlichkeiten der Wörter berechnet wird. Daraus wird durch Loga- 
rithmieren die PMI gewonnen. Negative Werte weisen auf Kombinationen hin, die 
seltener als erwartbar auftreten, und positive Werte zeigen überzufällig häufige 
Kombinationen an: 


bigrams <- bigrams 


oye 
°>% 


# Auftretenswahrscheinlichkeit p des Bigrams 


mutate(p =n / s 


oso 
CP 


um (n) ) 


# Auftretenswahrscheinlichkeit pl für Wort 1 


group_by(item1) 


mutate (nl = sum( 
ungroup() %>% 
mutate (pl = nl / 


# Auftretenswahr 
group_by(item2) 


mutate (n2 = sum( 
ungroup() %>% 
mutate (p2 = n2 / 


oso 
°>% 


n)) 


scheinlichkeit 
%>% 


n)) 


# Berechnung von pmi 


mutate (pmi = 


log(p / 


(pl * p2))) 


p2 für Wort 2 
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Tab. 9.7 Beispiele für Bigramme in einem Beispielkorpus zum Thema Daten 
item1 item2 n |p nl pl n2 | p2 pmi 
kritischen bereich 1 | 3,2E-05 1 3,2E-05 |2 6,5E-05 | 9,64 
vereinfachen | datenklau |1 | 3,2E-05 1 3,2E-05 |2 6,5E-05 | 9,64 


falsche hande 3 |9,72E-05 |8 0,0003 6 0,0002 7,56 


werden benutzt 5 /1,62E-05 |575 |0,0186 16 |0,00052 |2,82 
Die PMI-Werte sind absteigend sortiert. Quelle: Eigene Darstellung 


Im hier verwendeten Beispielkorpus treten die Wörter „bereich“ und „kritischen“ 
jeweils nur ein- bzw. zweimal innerhalb eines Bigrams auf. Dass ausgerechnet diese 
beiden Wörter dann in einer Kombination auftreten, wäre bei vollständiger Un- 
abhängigkeit nicht zu erwarten und führt deshalb zu einem hohen PMI (Tab. 9.7). 
Dennoch muss man bei der Interpretation von solch seltenen Kombinationen zurück- 
haltend sein — eine Aussage, die auf lediglich einer Kombination beruht, ist kaum be- 
lastbar. Solche Einzelfallkombinationen kommen prinzipbedingt durchaus oft vor, im 
Beispielkorpus finden sich über 18.000 singuläre Bigramme. Das rührt daher, dass die 
meisten Wörter in einem Korpus eher selten vorkommen!! und jedes Wort aber natür- 
lich auch immer in mindestens einer Kombination steht. Erst wenn man sich in höhe- 
ren Bereichen umschaut — etwa Bigramme, die mindestens drei-, fünf- oder zehnmal 
vorkommen — gewinnt man eine etwas bessere Interpretationsgrundlage. 

Eine noch robustere Einschätzung liefern Zusammenhangsmaße, bei denen 
solche Einzelfälle auf Grundlage weiterer statistischer Überlegungen zum 
Informationsgehalt von seltenen Wörtern und Kombinationen aussortiert werden. 
In der Computerlinguistik verbreitet ist das Log-Likelihood-Ratio (LLR, auch G2 
genannt; siehe Dunning 1993), mit dem der Überraschungswert einer Kookkurrenz 
berechnet wird (® Repositorium). Hierdurch lassen sich etwa Kombinationen wie 
„daten verwendet“, „daten verkauft“ oder „jedoch weitergegeben“ finden, die 
durchaus typisch für den untersuchten Anwendungsbereich erscheinen. 

Die drei angesprochenen Werte — Tf-idf, PMI und LLR - sind vergleichsweise 
einfache Verfahren, um sich einen Überblick über Wörter und Kombinationen in 
einem Text zu verschaffen. Grundlegend ist stets, dass das Vorkommen von Wör- 
tern in Texten ausgezählt wird. Zu beachten ist, dass weder häufige Wörter noch 


1! Das sogenannte Zipf’sche Gesetz beschreibt eine solche Verteilung, bei der wenige Wörter 
sehr häufig und viele Wörter sehr selten vorkommen, zu solchen Verteilungen siehe zum Bei- 
spiel Newman (2005) und Piantadosi (2014). 
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seltene Kombinationen automatisch bedeutsam sind, sondern eine statistische und 
interpretative Einordnung vorgenommen werden muss. 


Schritt 6: Keywords-in-Context Für weitere interpretative Schritte lohnt sich ein 
Blick in das Package quanteda (Benoit et al. 2022). Die vorher mit readtext () 
oder anderen Verfahren eingelesenen Texte werden in ein Korpus-Objekt um- 
gewandelt und können dann mit vorbereiteten Auswertungsfunktionen analysiert 
werden. Die Funktion kwic () (= keywords in context) zeigt beispielsweise den 
Kotext'? zu ausgewählten Schlüsselwörtern an, das heißt vorangegangene und fol- 
gende Wörter. Das folgende Beispiel gibt die Kotexte des Worts „Daten“ aus: 


Dateien aus dem Ordner korpus laden 
texte <- readtext ("korpus", encoding = "UTF-8") 


In quanteda-Corpus umwandeln 
texte <- corpus (texte) 


Überblick über das Korpus 
summary (texte) 


Tokenisierung 
token <- tokens (texte) 


Keywords-in-Context zum Wort "daten" 


kwic daten <- kwic(token, "daten") 


Damit wird ein Dataframe erzeugt, der in RStudio als durchsuchbare Liste auf- 
bereitet wird und so einen schnellen Überblick über den Kontext von ausgewählten 
Schlüsselwörtern erlaubt (Tab. 9.8). 

Das Package quanteda ebnet darüber hinaus mit einer Vielzahl von weiteren 
Funktionen den Weg zu elaborierten Verfahren automatischer Textanalyse, etwa 
wenn Topic Modeling zum Extrahieren der Themenstruktur eines Korpus ein- 
gesetzt werden soll (siehe Abschn. 8.2), und auch zu Visualisierungstechniken wie 
Wordclouds. Für eine Einführung in quanteda ist das Quickstart-Tutorial des Pa- 
ckages empfehlenswert.” 


1? Kotexte sind die Kontexte von Wörtern. 
'3 Siehe Benoit et al. (2022; https://quanteda.io/articles/quickstart.html). 
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Tab. 9.8 Keywords-in-context-Analyse für das Wort „Daten“ 


Doc Pretext Keyword | Posttext 
RF1.txt | häufigsten zu Verwendung der | Daten gemacht wird ist, dass 
weitergegebenen 
RF1.txt | wird ist, dass die Daten zur sogenannten 
Benutzeroptimierung genutzt 
werden 
RF1.txt | geschaltet wird. Zu diesen Daten sollten, meiner Meinung nach 
RF1.txt | werden. Sollten jedoch weitere | Daten , wie zum Beispiel Adresse 
RF1.txt | darüber haben, was für Daten er angeben möchte und wie 
RFI.tXt | den AGB’s angegeben ist Daten wofür genutzt werden, sollte 
welche 
RF1.txt | ich an der Weitergabe meiner | Daten sehe ist, dass man 
RF1.txt | Jedoch wird jede Weitergabe | Daten auch dritten Personen einen Zugang 
von 


Quelle: Eigene Darstellung 


Die bislang besprochenen Verfahren zeichnen sich allesamt dadurch aus, dass 
sie zwar harte Zahlen über die Verteilung von Wörtern oder Kombinationen in 
einem Korpus liefern, dabei aber immer explorativ und interpretationsbedürftig 
sind. Die Berechnung von Wortfrequenzen, Wahrscheinlichkeiten, Tf-idf-Werten, 
Kookkurenzen oder Pointwise Mutual Information unterstützt vorrangig die inhalt- 
liche Auseinandersetzung mit einem Korpus, um einen Überblick über typische 
und seltene Fälle zu erhalten, sowie die Datenaufbereitung. 
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Führt man sich die Entstehung von Texten vor Augen, dann stellt ein Text immer 
nur eine Realisation von vielen äquivalenten Möglichkeiten dar. Die Abneigung 
oder Zustimmung zu einem Sachverhalt kann beispielsweise auf ganz unterschied- 
liche Weise ausgedrückt werden. Menschen haben einen umfangreichen Wort- 
schatz lobender oder beleidigender Wörter und können sich mal einfach und mal 
elaboriert ausdrücken. Themen wie Datenschutz, die Entstehung der Menschheit 
oder Wahlen lassen sich auf sehr unterschiedliche Weise besprechen. Während die 
bislang dargestellte Herangehensweise — Auszählen von Wörtern — bei den konkre- 
ten Texten startet und auf Bedeutungen schließt, geht eine diktionärsbasierte 
Inhaltsanalyse umgekehrt vor. Hier stehen am Anfang der Analyse sogenannte la- 
tente Konstrukte wie Einstellungen, Themen oder auch spezielle Konstrukte wie 
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Tab. 9.9 Beispiele für negative und positive Wörter aus dem SentiWS 


lemma pos sentiment inflections 

Gefahr NN 1,00 Gefahren 

Schuld NN —0,97 Schulden 

unnötig ADJX —0,95 unnötigstes,unnötigere,unnötige [...] 
schädlich ADJX —0,93 schädlicher,schädlicheren [...] 
schwach ADJX —0,92 schwächstem,schwächsten [...] 
schämen VVINF 0,89 schämt,geschämt,schämtest [...] 
gelungen ADJX 1,00 gelungnerem,gelungenster [...] 
perfekt ADJX 0,73 perfekterer,perfekteren,perfektes [...] 
Lob NN 0,72 Loben,Lobs,Lobes,Lobe 

wunderbar ADJX 0,72 wunderbarerem, wunderbarste [...] 
spannend ADJX 0,72 spannendste,spannender [...] 
wunderschön ADJX 0,70 wunderschönen, wunderschönsten [...] 


Quelle: Eigene Darstellung basierend auf dem SentiWS (Deutscher Wortschatz 2022) 


Inzivilität und Diskursqualität, die dann im zweiten Schritt so operationalisiert 
werden, dass manifeste sprachliche Äußerungen als Indikator für diese Konstrukte 
verwendet werden. Latente Konstrukte umfassen also die nicht direkt messbaren 
Prozesse und Zustände, von denen man annimmt, dass sie hinter den beobacht- 
baren, manifesten sprachlichen Zeichen stehen. Der Vorgang, die latenten Kon- 
strukte messbar zu machen, wird Operationalisierung genannt (Döring und Bortz 
2016, S. 224). 

Eine einfache Möglichkeit der Operationalisierung besteht darin, eine Reihe von 
Wörtern festzulegen, die beispielsweise für eine positive oder eine negative Ein- 
stellung stehen. Diese Form der Analyse, bei der die Valenz von Texten bestimmt 
wird, nennt sich Sentimentanalyse. Hierfür stehen einige wenige in wissenschaft- 
lichen Projekten bereits erprobte Wörterbücher zur Verfügung. Ein deutschsprachiges 
Wörterbuch ist der SentimentWortschatz (Goldhahn et al. 2012), welcher von der 
Projektseite der Universität Leipzig heruntergeladen werden kann.'* Die Daten gehen 
auf eines der ersten Digital-Humanities-Projekte zur automatisierten Textanalyse zu- 
rück. Das Diktionär des Programms General Inquirer (Stone et al. 1966) wurde mit 
Wörtern aus Zeitungskorpora unter Zuhilfenahme von Verfahren wie Kookkurrenz- 
analyse ergänzt und schließlich durch menschliche Kodierer:innen überprüft. In die- 
sem Diktionär sind zu jeweils einem Lemma die Wortart (= PoS; Part-of-Speech), ein 
negativer bis positiver Sentimentwert und flektierte Wortformen enthalten (Tab. 9.9). 
Verbindet man diese Wortliste mit den Wörtern in einem tokenisierten Text, lässt sich 


14 Siehe Deutscher Wortschatz (2022; https://wortschatz.uni-leipzig.de/). 
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die Anzahl positiver oder negativer Wörter in einem Text als Indikator für die Valenz 
des Textes verstehen. Dass diese einfache Grundidee eine Reihe von Komplexitäten 
birgt, wird das folgende R-Beispiel verdeutlichen." 


Schritt 1: Texte einlesen Lesen Sie zunächst wie oben beschrieben das Korpus 
ein, tokenisieren Sie die Texte und führen Sie ein Stemming durch: 


texte <- readtext ("korpus", encoding = "UTF-8") 


woerter <- unnest_tokens ( 
texte, wort, text, to_lower = T 
) %>% 


mutate (stem = wordStem (wort, language = "de")) 


Im Ergebnis liegt ein Dataframe woerter vor, in der ersten Spalte wird für 
jeden Text eine doc_id vermerkt und in der letzten Spalte stem sind fortlaufend 
die Wortstämme enthalten. 


Schritt 2: Wörterbuch einlesen Das Diktionär (® Repositorium) muss für den 
Abgleich auf die gleiche Weise wie das Textkorpus vorbereitet werden, das heißt, 
die Lemmata werden in Kleinschreibung umgewandelt und auf die Wortstämme 
zurückgeführt: 


sentiws <- read_csv ("sentiws/SentiWS20.csv", na = "") 


sentiws <- sentiws %>% 
mutate (wort = str_to_lower(lemma)) %>% 
mutate(stem = wordStem(wort, language = "de")) 


Dadurch entsteht ein Dataframe, der unter anderem eine Spalte stem und zu 
jedem Wortstamm in der Spalte sentiment einen Sentimentwert zwischen —1 
und +1 enthält. Durch die Aufbereitung ist es möglich, dass ein Wortstamm dop- 
pelt, aber mit unterschiedlichen Sentiments, auftritt. Damit eine eindeutige Zu- 
ordnung zwischen den Texten und dem Diktionär möglich ist, können Sie die Wort- 
stämme so zusammenfassen, dass nur das mittlere Sentiment verzeichnet ist. Das 
leistet die Funktion summarise () in Kombination mit mean (), wobei die Zu- 


15 Diktionärsbasierte Verfahren müssen immer validiert werden, zur Validität von Sentiment- 
analysen siehe van Atteveldt et al. (2021). 
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sammenfassung mit group_by() für jeden Wortstamm getrennt durchgeführt 
wird (dieses Muster wird in Abschn. 5.1 erklärt): 


sentiws mean <- sentiws %>% 
group_by(stem) %>% 
summarise (sentiment = mean(sentiment)) %>% 


ungroup () 


Zur weiteren Vereinfachung der Analyse wird noch eine neue Spalte sent _ 
pos eingeführt, in der mit den Wahrheitswerten TRUE und FALSE (kurz: Tund F) 
vermerkt wird, ob es sich um ein Wort mit einem positiven oder negativen Senti- 
mentwert handelt: 


sentiws_mean <- sentiws_mean %>% 
mutate (sent_pos = ifelse (sentiment > 0, T, F)) %>% 
mutate (sent_neg = ifelse(sentiment < 0, T, F)) 


Im nächsten Schritt kann ausgezählt werden, wie viele Wörter in einem Text 
positiv oder negativ konnotiert sind. Diese Vorbereitungsschritte für das Korpus 
und das Diktionär zeigen bereits auf, dass eine Sentimentanalyse häufig stark ver- 
einfachend vorgeht und entsprechend vorsichtig interpretiert werden muss. Die 
Ambivalenz von Wörtern (wenn sie gleichzeitig positive und negative Aspekte be- 
inhalten) und auch Synonyme (wenn ein Wort verschiedene Bedeutungen hat) wer- 
den geglättet. Eine solche automatisierte Textanalyse ist zwar objektiv in dem 
Sinne, dass sie sich unabhängig von den ausführenden Wissenschaftler:innen 
wiederholen lässt. Trotzdem ergibt sich die Bedeutung von Wörtern, Sätzen und 
Texten aus dem Wechselspiel von Mitteilung und Rezeption und kann deshalb 
nicht nur von Rezipient:in zu Rezipient:in unterschiedlich ausfallen, sondern auch 
ein und die gleiche Person kann morgens zu einer anderen Einschätzung kommen 
als am Abend. 


Schritt 3: Wörter den Texten zuordnen Sind Korpus und Wörterbuch auf die 
gleiche Art und Weise aufbereitet, können die beiden Tabellen verbunden werden. 
Jedem Wort aus den Texten lässt sich über einen left join () ein Eintrag aus 
dem Wörterbuch zuordnen, indem die Spalte stem abgeglichen wird (zu Joins 
siehe Abschn. 4.2.2): 


woerter sentiment <- woerter %>% 
left _join(sentiws_mean, by = "stem") 
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Tab. 9.10 Zuordnung von Wörtern zu Sentiments (Auszug) 


doc_id wort stem sentiment sentpos 
RF1.txt verletzt verletzt —0,5202 FALSE 
RF1.txt hackerangriffes hackerangriff 

RF12.txt abzulehnen abzulehn 

RF1.txt schon schon 0,0081 TRUE 
RF30.txt schön schon 0,0081 TRUE 
RF1.txt größeren gross 0,1867 TRUE 
RFI.txt firmen firm 


Quelle: Eigene Darstellung basierend auf dem SentiWS (Deutscher Wortschatz 2022) 


Das Ergebnis besteht aus einem Dataframe, in den ersten Spalten finden sich die 
Daten aus der Wörterliste in doc_id und wort, in den letzten Spalten die An- 
gaben sentiment und sentpos aus dem Diktionär, dazu die Spalte stem, über 
die der Abgleich vorgenommen wurde. Betrachtet man einen Ausschnitt aus dem 
Ergebnis (Tab. 9.10), fällt auf, dass nicht alle Wörter im Diktionär verzeichnet 
sind — im verwendeten Beispielkorpus lassen sich 17 % der Wörter zuordnen. Da- 
runter sind viele Wörter wie „Firmen“, denen sich nicht ohne Weiteres eine Ten- 
denz zuordnen lässt, aber auch Wörter wie „Hackerangriff“, die zwar intuitiv posi- 
tiv bzw. negativ bewertet werden können, die aber für das Diktionär zu speziell 
sind. Während einige Zuordnungen wie ein negatives Sentiment zum Wort 
„Verletzt“ durchaus gut nachvollziehbar sind, treten auch Unschärfen auf. Das 
Wort „schon“ wird durch die Zurückführung auf einen Wortstamm mit dem glei- 
chen Sentiment wie das Wort „schön“ belegt. Und das als positiv erkannte Wort 
„größeren“ ließe sich je nach Kontext auch negativ interpretieren, etwa wenn es um 
einen größeren Schaden geht. 


Schritt 4: Auswertung Unschärfen bedeuten nicht zwangsläufig, dass keine sinn- 
vollen Aussagen getroffen werden können. Wichtig ist vor allem, dass jedes Wort 
lediglich als Indikator verstanden wird — wenn viele Indikatoren gleichzeitig be- 
trachtet werden, gleichen sich die Fehlzuordnungen in die positive oder negative 
Richtung im besten Fall aus. Deshalb werden die Sentiments im nächsten Schritt 
so zusammengefasst, dass für jeden Text die Anzahl aller Wörter n_ token, die 
Anzahl positiv erkannter Wörter n_pos und die Anzahl negativ erkannter Wörter 
n_neg ausgezählt wird. Im folgenden Beispiel wird dazu ein Trick angewendet: 
Der Wahrheitswert TRUE wird bei der Addition automatisch in 1 umgewandelt, 
sodass sich als Summe der Wahrheitswerte die Anzahl der in den Spalten sent _ 
pos bzw. sent_neg mit TRUE gekennzeichneten Fälle ergibt. Mit na. rm=T 
werden die fehlenden Werte ignoriert. Daraus lässt sich für jedes Dokument der 
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Anteil positiv erkannter Wörter p_pos und negativ erkannter Wörter p_ neg 
berechnen: 


texte sentiment <= woerter sentiment S>% 
group_by(doc_id) %>% 


summarize ( 
n_token = n(), 


n_pos = sum(sent_pos, na.rm = T), 


n_neg = sum(sent_neg, na.rm = T), 


p_pos = n_pos / n_token, 
p_neg = n_neg / n_ token 
) %>% 


ungroup () 


Schlussendlich entsteht ein Dataframe, in dem für jeden Text der Umfang posi- 
tiver und negativer Wörter verzeichnet ist, was sich gut visualisieren lässt. Trägt 
man den Anteil positiver Worter auf der X-Achse und die negativen Worter ent- 
sprechend auf der Y-Achse ab, kann jedes Dokument als Punkt eingetragen werden: 


texte sentiment %>% 
ggplot(aes(x = p_pos, y = p_neg)) + 
geom point () 


Es zeigt sich dabei wieder, dass die Welt nicht schwarz und weiß ist (Abb. 9.2). 
Texte können eindeutig negativ (links oben) oder positiv (rechts unten) eingeordnet 
werden, aber eine Vielzahl an Dokumenten bleibt ambivalent (rechts oben) oder 
indifferent (links unten), weil gleichzeitig positive und negative Bewertungen vor- 
genommen werden bzw. nur wenige bewertende Wörter enthalten sind. 

Der Mittelwert positiver Sentiments liegt mit 0,13 deutlich über dem Wert von 
0,04 für das mittlere negative Sentiment (in der Grafik durch Linien gekennzeichnet). 
Ob das tatsächlich darauf hindeutet, dass die meisten der befragten Studierenden — 
das Korpus umfasst Reflexionstexte zum Thema Datenschutz — eine positive Ein- 
stellung ausdrücken, ist allerdings fraglich. Bei der Interpretation sollte besser ver- 
gleichend vorgegangen werden. Im Vergleich zu anderen Texten lassen sich über- oder 
unterdurchschnittlich positive oder negative Texte identifizieren. Auf diese Weise 
können nicht nur tendenziell positivere oder negativere, sondern eben auch unent- 
schiedene oder mehrdeutige Texte für eine weitere Analyse identifiziert werden. 


9.2 Diktionärbasierte Inhaltsanalyse 379 


Erkannte Wörter 


Anteil negativer Wörter 


0.00 0.05 0.10 0.15 0.20 0.25 
Anteil positiver Wörter 


Abb.9.2 Sentiments eines Beispielkorpus. (Quelle: eigene Darstellung) 


Das am Beispiel einer Sentimentanalyse verdeutlichte Prinzip lässt sich mit ent- 
sprechenden Wörterbüchern auf andere Anwendungsfälle übertragen. Häufig ver- 
wendet wird beispielsweise das LIWC-Diktionär (Linguistic Inquiry and Word 
Count), in dem psychologische Kategorien wie etwa Emotionen operationalisiert 
sind.'° Die deutsche Version des LIWC ist für wissenschaftliche Analysen bei den 
Autoren erhältlich (Wolf et al. 2008). Auch für spezielle und aktuelle Fälle wie die 
Erkennung von Hate Speech werden fortlaufend Diktionäre entwickelt,” wobei 
entsprechende Daten häufig zunächst für die englische Sprache vorliegen und 
damit nicht ohne Übersetzung für deutschsprachige Analysen eingesetzt werden 
können. Es lassen sich aber auch eigene Wörterbücher entwickeln — um aus größe- 
ren Textkorpora relevante Texte auszuwählen, reichen mitunter einfache Stich- 
wortlisten. 


'CLIWC ist ein Programm zur Textanalyse, das nicht kostenlos zur Verfügung steht, siehe 
Pennebaker et al. (2022; https://www.liwc.app/). Das darin verwendete LIWC-Diktionär 
kann aber auf Nachfrage bei einem der Autoren (James W. Pennebaker) für akademische 
Zwecke kostenlos bezogen werden. 

1 Für eine Übersicht siehe Vidgen und Derczynski (2020). Siehe auch Derczynski et al. 
(2022; https://github.com/leondz/hatespeechdata). 
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9.3 Syntax und Semantik 


In den vorangegangenen Abschnitten wurden als Analyseeinheiten immer nur 
einzelne Wörter und Wortkombinationen betrachtet. Sprache besteht allerdings 
nicht aus isolierten Wörtern, die Wörter stehen zueinander in Beziehung und diese 
Beziehungen vermitteln Informationen, die für ein Verständnis von Texten nötig 
sind. Löst man sich bei der automatisierten Textanalyse von einzelnen Wörtern und 
betrachtet diese im Kontext von anderen Wörtern, kommen Syntax und Semantik 
in Spiel. Syntax beschreibt die Regeln, nach denen Wörter und Sätze zusammen- 
gebaut werden, während sich die Semantik damit beschäftigt, was diese Wörter 
und Sätze bedeuten (Bußmann 1990, S. 672, 766). Unter dem Stichwort Natural 
Language Processing (NLP) werden Verfahren der automatisierten Textanalyse zu- 
sammengefasst, die syntaktische und semantische Strukturen berücksichtigen. 
Zwar stoßen automatisierte Verfahren zum Verarbeiten menschlicher Sprache 
immer auch an Grenzen, die im Folgenden angesprochenen Methoden gehören 
aber mittlerweile zum Standardrepertoire der Computational Methods. 


9.3.1 Natural Language Processing 


Ein erster Schritt, um über den Bag-of-Words-Ansatz hinauszugehen, besteht 
darin, die Wortarten zu berücksichtigen. Beim sogenannten Part-of-Speech- 
Tagging (POS-Tagging) werden beispielsweise Artikel und Substantive unter- 
schieden (einführend zum Beispiel Martinez 2012). Diese Information kann hilf- 
reich sein, um nur bedeutungstragende Wortarten (Substantive, Verben, 
Adjektive) in eine Analyse einzuschließen, anstatt eine Liste von Stoppwörtern 
auszuschließen. Das Bestimmen der Wortarten ist allerdings nicht trivial, wie 
man sich an der Unterscheidung von Substantiven und Verben vor Augen führen 
kann. Auch wenn es etwa naheliegen mag, Substantive und Verben zum Beispiel 
anhand der Groß- und Kleinschreibung zu unterscheiden, reicht dieses Unter- 
scheidungskriterium allein nicht aus. Verben werden im Deutschen am Satz- 
anfang großgeschrieben, in der konzeptionell mündlichen Sprache von On- 
line-Chats finden sich kleingeschriebene Substantive und in Sprachen wie dem 
Englischen kann ein kleingeschriebenes „walk“ sowohl den Spaziergang als auch 
spazierengehen bezeichnen. Deshalb werden im besten Fall automatisierte 
Klassifikationsverfahren eingesetzt, die über einfache Regelformulierungen 
hinausgehen (siehe Abschn. 8.2). Ein Spezialfall des POS-Taggings ist das Er- 
kennen von Eigennamen durch Named-Entity-Recognition (NER). Dieses 
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werden 


damit 


personalisierte an] 


a ADJ a ADV a CCONJ a NOUN a SCONJ 


OS 
p a ADP a AUX a DET a PUNCT a VERB 


Abb. 9.3 Dependenzparsing. Der Satz wurde mit spacyR geparsed und mit ggraph visuali- 
siert. (Quelle: eigene Darstellung) 


automatische Klassifikationsverfahren dient der Identifizierung von Personen, 
Orten oder Organisationen in Texten. 

Wortarten ergeben sich teilweise aus den Beziehungen zwischen Wörtern. Im 
Deutschen stehen etwa Artikel immer vor den Substantiven, sie treten in der Regel 
nicht unabhängig voneinander auf. Führt man den Gedanken weiter, so lässt sich 
die gesamte syntaktische Struktur eines Satzes rekonstruieren. Dependenzparser 
(einführend zum Beispiel Nederhof und Satta 2010) bilden die Satzstruktur so in 
einem Baum ab, dass die Abhängigkeiten zwischen den Wörtern sichtbar werden 
(Abb. 9.3). Betrachtet man die Verbindungen von Adjektiven und Substantiven, so 
lassen sich Prädikationen wie „personalisierte Werbung“ finden. Im Deutschen bil- 
den Verben den Mittelpunkt von Aussagen, Verbalkonstruktionen können zur Re- 
konstruktion von Handlungen und Ereignissen! herangezogen werden, wie sie in 


18 Zur Analyse von Handlungen siehe zum Beispiel van Atteveldt et al. (2017). Ereignisse 
werden beispielsweise im GDELT-Projekt automatisiert aus der Berichterstattung extrahiert, 
siehe Leetaru (2021; https://www.gdeltproject.org/). 
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den Teilsätzen „unsere Daten werden benutzt“ oder „die Dienste profitieren davon“ 
formuliert sind. Eine Alternative zum Dependenzparsing besteht darin, einen Satz 
so in seine Bestandteile zu zerlegen, dass einzelne voneinander abhängende Phra- 
sen identifizierbar werden. Diese sogenannten Konstituenten (constituency par- 
sing) helfen dabei, Nebensätze oder indirekte Rede zu identifizieren. 

Wörter stehen nicht nur in syntaktischer, sondern auch in semantischer Relation 
zueinander. Das wird etwa bei Synonymen sichtbar: ,,Apfelsine“ und „Orange“ 
bezeichnen den gleichen Gegenstand, sie werden mit einem Bag-of-Words-Ansatz 
aber als unterschiedliche Wörter behandelt. In der automatisierten Sprachanalyse 
können zur Lösung dieses Problems Word Embeddings eingesetzt werden. Jedes 
Wort wird dabei durch einen Vektor von Eigenschaften repräsentiert (Turney und 
Pantel 2010). Beispielsweise sind Apfelsinen und Orangen beide essbar, Steine 
dagegen nicht. Diese Eigenschaft kann man indirekt aus dem sprachlichen Kontext 
erschließen. So sind die Kombinationen „Orangen essen“ oder „Apfelsinen essen“ 
erwartbar und unterscheiden sich von einem sprachlichen Kontext wie „Steine 
werfen“. Die Bedeutung eines Wortes ergibt sich also aus dessen Verwendung — 
diese Erkenntnis wird als Distributionshypothese bezeichnet: „You shall know a 
word by the company it keeps“ (Firth 1962, S. 11). 

Analysiert man die Verwendung von Wörtern in großen Textkorpora, so lassen 
sich daraus Dimensionen gewinnen, auf denen sich Wörter verorten lassen — die 
sogenannten Word Embeddings. Für jedes Wort wird ein Vektor mit Eigenschaften 
gebildet. In der Textanalyse kann dann mit diesen in Zahlen ausgedrückten Dimen- 
sionen anstelle der Wörter weitergearbeitet werden. Werden Wörter durch Vektoren 
repräsentiert, lassen sich auch Ähnlichkeiten bestimmen. So sollten sich die Vekto- 
ren von „Apfel“ und „Orange“ ähnlicher sein als die Vektoren von „Apfel“ und 
„Stein“. Multilinguale Word Embeddings, bei denen zum Beispiel „book“ und 
„Buch“ durch ähnliche Vektoren erfasst sind, ermöglichen zudem sprachüber- 
greifende Analysen. Auch Gegensätze lassen sich ermitteln, wenn zwei Wörter in 
vielen Dimensionen ähnlich, in einigen Dimensionen aber gegenteilig sind. Ein 
klassisches Beispiel dafür ist die Beziehung zwischen den Wörtern „König“ und 
„Königin“, die sich lediglich im Geschlecht unterscheiden (Pennington et al. 2014, 
S. 1532). Um weitere Beziehungen zwischen Begriffen, insbesondere über- und 
untergeordnete Begriffe (Hyperonyme und Hyponyme), zu berücksichtigen, kön- 
nen zudem strukturierte Ontologien eingesetzt werden, wie sie etwa von WordNet’? 
entwickelt wurden (siehe auch Abschn. 3.7). 


1 Siehe Princeton University (2010; https://wordnet.princeton.edu/). 
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9.3.2 Textanalyse mit spaCy 


Die meisten der genannten Techniken lassen sich vergleichsweise unkompliziert 
mit etablierten Packages für R oder Python umsetzen. Diese Packages parsen einen 
Text, das heißt, sie legen ihn in einem Datenformat ab, das die ursprüngliche Struk- 
tur des Textes abbildet und ggf. um zusätzliche Informationen wie Part-of-Speech- 
Tags ergänzt. Zahlreiche Funktionalitäten stellt beispielsweise die Open-Source- 
Software spaCy bereit.” SpaCy ist für Python entwickelt worden, lässt sich aber 
dank des spacyR-Package (Benoit und Matsuo 2020) gut in R nutzen.” 

Benötigt wird für spacyR eine Python-Distribution - installieren Sie sich zu- 
nächst die Python-Distribution Miniconda. Wenn Sie bereits eine Anaconda- 
Distribution (siehe Abschn. 5.2) auf Ihrem Computer eingerichtet haben, können 
Sie diesen Schritt überspringen. Anschließend installieren und laden Sie in R das 
Package spacyr. Über die Funktion spacy install() wird automatisch eine 
virtuelle Conda-Umgebung mit Python und spaCy eingerichtet:” 


library (spacyr) 
spacy install() 


Beim Parsen greift SpaCy auf vortrainierte Modelle zurück (siehe Abschn. 8.1 
zu den Grundlagen automatisierter Klassifikation). Ein deutsches Sprachmodell 


können Sie mit folgendem Befehl herunterladen: 


spacy download langmodel ("de") 


% Siehe Honnibal und Montani (2020; https://spacy.io/). Die Ergebnisse können dann mit 
weiteren Packages verarbeitet werden, etwa zur Extraktion von Phrasen mit rsyntax (van 
Atteveldt und Welbers 2022). 

?!In solchen Situationen, in denen Funktionen in einer Programmiersprache geschrieben, 
aber aufgrund ihrer Prominenz auch für andere Sprachen verfügbar gemacht werden sollen, 
kommen sogenannte Wrapper zum Einsatz. Wrapper schlagen also eine Brücke von einer 
Programmiersprache in die andere. 

”Miniconda (Anaconda 2022; https://docs.conda.io/en/latest/miniconda.html) ist eine 
Minimalversion der Python-Distribution Anaconda, die im Kern vor allem den Paketmanager 
conda und Python mitbringt. Siehe Benoit und Matsuo (2020; https://cran.r-project.org/web/ 
packages/spacyr/readme/README.html) für weitere Informationen zur Installation von 
Spacy für R. 


384 9 Textanalyse 


Tab. 9.11 Ergebnis des Parsings mit SpaCy 


doc_id | sentence_id | token_id | token lemma pos head_token_id | dep_rel 
RF29 |9 1 Unsere mein DET 2 nk 
RF29 |9 2 Daten Datum NOUN |3 sb 
RF29 |9 3 werden werden AUX 3 ROOT 
RF29 |9 4 benutzt benutzen | VERB |3 oc 
RF29 |9 5 p 5 PUNCT | 4 punct 
RF29 |9 6 damit damit SCONJ | 10 cp 
RF29 |9 7 die der DET 8 nk 
RF29 |9 8 Dienste Dienst NOUN | 10 sb 
RF29 |9 9 davon davon ADV 10 op 
RF29 |9 10 profitieren | profitieren VERB | 4 mo 


Quelle: Eigene Darstellung 


Sind alle Komponenten heruntergeladen und installiert — diese Schritte müssen 
nur einmalig durchlaufen werden -, kann der Parser mit dem deutschen Sprach- 
modell initialisiert werden. SpaCy ist dann eingerichtet und einsatzbereit: 


spacy_initialize(model = "de core news_sm") 


Wenn Sie Texte mit der readtext () -Funktion einlesen, können diese an- 
schließend an die Funktion spacy_parse () übergeben werden, um Wortarten 
oder Dependenzstrukturen zu bestimmen: 


library (tidyverse) 
library (readtext) 


texte <- readtext ("korpus", encoding = "UTF-8") 
txt_parsed <- spacy_parse (texte, dependency = TRUE) 


Der Output enthält im Dataframe txt_parsed die tokenisierten und an- 
notierten Texte (Tab. 9.11). Jedes einzelne Token innerhalb eines Satzes wurde in 
der Spalte token_id durchnummeriert, lemmatisiert und in der Spalte pos mit 
einer Wortart versehen. Die verwendeten Bezeichnungen stammen aus dem 
TIGER-Annotationsschema.” Die syntaktische Struktur der Sätze ist in den Spal- 
ten head _token id und dep rel erfasst. Erstere enthält die ID des syntak- 
tisch übergeordneten Tokens, letztere eine Klassifikation der Beziehung. Im Bei- 


3 Auf der Seite des TIGER-Projekts findet sich neben der Dokumentation auch ein Teil des 
Trainingsmaterials, das in das Sprachmodell eingeflossen ist, siehe IMS (2003; https://www. 
ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger/). 
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spiel wird etwa das Hilfsverb „werden“ (token_id=3) als Wurzelelement (root) 
des Satzes identifiziert, davon hängt das Verb „benutzt“ (head_token id=3) 
ab. Das Wort „Daten“ wird in der Spalte deep_rel als Subjekt (sb) des Satzes 
gekennzeichnet. 

Auch wenn ein linguistisches Grundwissen für die Arbeit mit diesen Daten hilf- 
reich ist, lassen sich schnell einfache Analysen anschließen. Ermitteln Sie die häu- 
figsten Wortarten, filtern Sie bedeutungstragende Wortarten heraus oder extrahie- 
ren Sie Phrasen rund um das Wort „Daten“! 


Übungsfragen 


1. Worin unterscheiden sich Textanalyse und Inhaltsanalyse? 
Welche Vor- und Nachteile ergeben sich aus dem Bag-of-Words-Ansatz? 
3. Suchen Sie sich zwei beliebige Sätze aus diesem Kapitel und bestimmen 
Sie die Anzahl der Types und der Token! 
4. Welche Schritte werden bei der Aufbereitung von Texten typischerweise 
durchgeführt? 
Was versteht man unter Tokenisierung? 
Finden Sie heraus: Wie kann ein Text mit R in einzelne Sätze zer- 
legt werden? 
7. Wie lassen sich PDF-Dateien mit R einlesen? 
8. Was ist der Unterschied zwischen einem Unigram und einem Trigram? 
9 


au 


. Was sagt der Tf-idf-Wert aus und wofür kann er verwendet werden? 
10. Wie kann die Kookkurrenz von Wörtern bestimmt werden? 
11. Was versteht man unter POS-Tagging und unter NER? 
12. Was ist ein Dependenzparser? 


Weiterführende Literatur 

Aggarwal, C.C. (2018). Machine learning for text. Cham: Springer. 

Aggarwal, C.C., & Zhai, C. (Hrsg.) (2012). Mining text data. New York: Springer. 

Lemke, M. & Wiedemann, G. (Hrsg.) (2016). Text Mining in den Sozialwissen- 
schaften: Grundlagen und Anwendungen zwischen qualitativer und quantitati- 
ver Diskursanalyse. Wiesbaden: Springer. 

Grimmer, J., Roberts, M. E. & Stewart, B. M. (2022). Text as data: A new frame- 
work for machine learning and the social sciences. Princeton: Princeton Uni- 
versity Press. 

Silge, J. & Robinson, D. (2017). Text mining with R. A tidy approach. Beijing: 
O’Reilly. http://tidytextmining.com 

Wiedemann, G. (2016). Text Mining for Qualitative Data Analysis in the Social 
Sciences. A Study on Democratic Discourse in Germany. Wiesbaden: Springer. 
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Zusammenfassung 


Dieses Kapitel führt in die Methode der Netzwerkanalyse ein. Sie lernen Grund- 
begriffe und Kennwerte der Netzwerkanalyse kennen und erlernen Techniken 
zur Erhebung, Aufbereitung und Analyse von Netzwerkdaten. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


Soziale Netzwerke - Semantische Netzwerke - Graphen - Knoten und Kanten - 
Komponenten - Dichte - Zentralität - Egozentrierte Netzwerke - 
Schneeballsampling - Empfehlungsnetzwerk - Facepager - igraph - Tidygraph - 
Gephi - Force-directed Layout 


Die Welt lässt sich in vielen Bereichen als Netzwerk begreifen. Menschen stehen 
über Kommunikation in Beziehung zueinander, Begriffe stehen zueinander in se- 
mantischen Beziehungen und selbst die Abfolge von Ereignissen lässt sich als zeit- 
liche Beziehung interpretieren (Albrecht 2013; Wasserman und Faust 1994, S. 9). 
Die Netzwerkanalyse bietet Werkzeuge und Ansätze, um solche Beziehungsdaten 
auszuwerten. 

Netzwerkanalysen sind ein typisches Anwendungsfeld automatisierter Metho- 
den und werden sowohl in den Sozial- als auch in den Geisteswissenschaften viel- 
fältig eingesetzt (Amaral 2017; Cioffi-Revilla 2010, S. 260). Das liegt mögli- 
cherweise daran, dass mittlerweile in vielen Lebensbereichen umfangreiche 
Beziehungsdaten anfallen, die manuell kaum zu bewältigen sind. Es gibt aber noch 
einen weiteren Grund dafür, dass gängige statistische Verfahren hier an Grenzen 
stoßen. Klassischerweise wird in der Statistik meist unterstellt, dass Beobachtun- 
gen voneinander unabhängig sind. Das ist bei Beziehungsdaten grundsätzlich nicht 
der Fall — ganz im Gegenteil, die Rolle einer Person als Mutter ergibt sich erst da- 
raus, dass sie auch mindestens ein Kind geboren, adoptiert oder umsorgt hat. Die 
Netzwerkanalyse stellt Methoden bereit, um solche Abhängigkeiten zu berück- 
sichtigen. 

Netzwerkanalyse ist dabei sowohl Methode als auch Theorie (Beckert 2005, 
S. 287 ff.). Sie umfasst unterschiedliche Verfahren, um Netzwerke zu konzipieren, 
zu beschreiben und auszuwerten. Gleichzeitig gehen mit methodischen Aspekten 
auch grundlegende theoretische Positionen einher, wie aus der Akteur-Network- 
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Theory (Latour 1996), der relationalen Soziologie (White 2008) oder aus Feldthe- 
orien (Bourdieu 1985). Zum Beispiel führte die Analyse von Netzwerkdaten zu der 
theoretischen Erkenntnis der Strength of Weak Ties, wobei lose, schwache Be- 
kanntschaftsbeziehungen im Gegensatz zu engen, starken Freundschaftsbeziehun- 
gen in sozialen Netzwerken eine entscheidende Relevanz für den Gesamtzusam- 
menhalt des Netzwerks haben (Granovetter 1973). 

In den Sozial- und Geisteswissenschaften können grundsätzlich drei Arten von 
Netzwerken unterschieden werden, die je andere Gegenstände als Netzwerk be- 
trachten und entsprechend unterschiedliche Fragen aufwerfen: 


e In sozialen Netzwerken interessieren Beziehungen zwischen Akteuren 
(Wasserman und Faust 1994, S. 20), also zwischen Einzelpersonen, kollek- 
tiven oder korporativen Akteuren. Dadurch kann beispielsweise betrachtet 
werden, wie sich soziale Ungleichheit formiert (Jansen 2003, S. 237 ff.) 
oder wie Identität in sozialen Bewegungen ausgehandelt wird (Diani und 
McAdam 2003). 

e Semantische Netzwerke bilden stattdessen die Beziehungen zwischen Kon- 
zepten ab. So können beispielsweise Informationen zur Repräsentation von 
Wissen (Quillian 1967) oder Frames in Nachrichtenartikeln (Schultz et al. 
2012) netzwerkanalytisch konzipiert und analysiert werden. Zur Modellierung 
von Wissensstrukturen eignet sich auch das Resource Description Framework 
(siehe Abschn. 3.7). 

¢ Um Prozesse zu untersuchen, können diese als raumzeitliche Netzwerke mo- 
delliert werden. Hiermit kann unter anderem die Abfolge von Kommunikations- 
ereignissen (Albrecht 2013; Malsch und Schlieder 2004) erfasst werden. Will 
man etwa Verläufe der Webseitennutzung analysieren, so lassen sich die Über- 
gangswahrscheinlichkeiten von einer Webseite zu einer anderen als sogenannte 
Markov-Kette (Markov 2006) erfassen, um dann typische Verläufe zu extrahie- 
ren. Auch bei der Navigation greift man auf netzwerkanalytische Verfahren 
zurück, so lässt sich etwa der kürzeste Weg zwischen zwei Orten mit dem 
Dijkstra-Algorithmus (Dijkstra 1959) berechnen. 


' Tatsächlich hat Leonhard Euler bereits Anfang des 18. Jahrhunderts einen wichtigen Grund- 
stein der Netzwerkanalyse gelegt, indem er ein Raumproblem graphentheoretisch löste: Das 
Königsberger Brückenproblem bestand in der Frage, ob es in Königstein einen Rundweg 
gibt, bei dem man jede von sieben Brücken genau einmal überquert (Euler 2000). 
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Im Kontext von Kommunikationsprozessen fallen alle drei Beziehungsarten immer 
zusammen. Kommunikation findet zwischen Akteuren statt, enthält Aussagen mit 
Referenzen auf Konzepte und ist durch einen Mitteilungs- und einen Rezeptionsakt 
raumzeitlich verortet. Dennoch kann es sinnvoll sein, diese Ebenen analytisch zu 
trennen und je nach Fragestellung einen Aspekt zu fokussieren, 


10.1 Grundlegende Konzepte der Netzwerkanalyse 


Netzwerke können auf unterschiedlichste Weise konzipiert werden, die dafür ein- 
gesetzten Begrifflichkeiten und Konzepte sind jedoch weitestgehend einheitlich. 
Nachfolgend werden zunächst aus graphentheoretischer Sicht die Bestandteile und 
Eigenschaften von Netzwerken beschrieben und einige Kennwerte zur Analyse 
von Netzwerken eingeführt. Beschrieben werden die Elemente und Maße anhand 
des Beispielnetzwerks in Abb. 10.1. Je nachdem, welche Bedeutung den Kreisen 
zugeschrieben wird, könnte das Netzwerk gemeinsam auftretende Wörter in Tex- 
ten, Zugverbindungen zwischen Orten oder auch Freundschaftbeziehungen zwi- 
schen Menschen abbilden. 


Abb. 10.1 Beispielnetzwerk. (Quelle: eigene Darstellung) 
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10.1.1 Elemente und Eigenschaften von Netzwerken 


Netzwerke bestehen aus Akteuren oder Konzepten, die durch Beziehungen mitei- 
nander verbunden sind. Wenn die Kreise in Abb. 10.1 für Personen und die Linien 
zwischen ihnen für Freundschaften stehen, dann handelt es sich um ein Freund- 
schaftsnetzwerk. Neben solch einer bildlichen Visualisierung von Netzwerken 
werden Netzwerke formal als Graph beschrieben. Ein Graph ist eine Menge von 
Knoten (die Menschen) und Kanten zwischen den Knoten (die Freundschaften). 
Es können zudem unterschiedliche Arten von Knoten in einem Netzwerk enthalten 
sein, etwa einerseits Menschen und andererseits die Geschäfte, in denen sie ein- 
kaufen. Netzwerke mit nur einer Art von Knoten heißen unimodal, wenn zwei 
Arten enthalten sind, spricht man von bimodalen oder bi-partiten Netzwerken, 
sind mehr als zwei Arten vorhanden, nennt man die Netzwerke multimodal. 

Die Knoten und Kanten weisen unterschiedliche Eigenschaften auf. Wenn Men- 
schen als Knoten aufgefasst werden, dann haben sie etwa soziodemografische Ei- 
genschaften wie das Alter oder ein Geschlecht. Auf Ebene der Beziehungen kann 
man grundlegend die Stärke der Beziehungen, die Richtung sowie Reziprozität und 
die Multiplexität unterscheiden. Die Stärke gibt etwa an, wie häufig zwei Men- 
schen miteinander in Kontakt kommen. Sie kann als sogenanntes Kantengewicht 
im Netzwerk angegeben werden. Spielt die Richtung keine Rolle, wie im Freund- 
schaftsnetzwerk von Abb. 10.1, dann spricht man von ungerichteten Netzwerken, 
ansonsten von gerichteten. Das kann etwa auftreten, wenn man in jemanden ver- 
liebt ist, aber nicht zurückgeliebt wird. In Netzwerkabbildungen werden solche 
gerichteten Beziehungen durch Pfeile dargestellt, die in eine oder beide Richtun- 
gen weisen können. Liegen beide Richtungen vor, spricht man von reziproken oder 
symmetrischen Beziehungen. Multiplexe Beziehungen liegen vor, wenn mehrere 
Arten von Beziehungen gleichzeitig untersucht werden, beispielsweise die Freund- 
schaft, der Umfang der Kommunikation und der Umfang gegenseitiger Unterstüt- 
zung zwischen zwei Menschen. 

In bimodalen Netzwerken, beispielsweise bestehend aus Personen und Veran- 
staltungen, können die Kanten darüber hinaus aus indirekten Beziehungen abgelei- 
tet werden. Dazu unterstellt man, dass Personen, die auf der gleichen Party oder 
der gleichen Konferenz waren, mit einer gewissen Wahrscheinlichkeit in Bezie- 
hung zueinander stehen oder zumindest die Gemeinsamkeit aufweisen, am gleichen 
Ort gewesen zu sein. Umgekehrt geht man davon aus, dass eher keine Beziehung 
vorliegt, wenn sich zwei Menschen noch nie begegnet sind. Die gemeinsame Teil- 
nahme wird dann als Beziehungsindikator gewertet, man spricht von Affiliations- 
netzwerken. Auch Kooperationen können so erfasst werden, beispielsweise indem 
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Autor:innen, die zusammen Aufsätze oder Bücher publiziert haben, in Beziehung 
zueinander gesetzt werden. Das gleiche Verfahren lässt sich zur Konstruktion se- 
mantischer Netzwerke einsetzen. Zwischen Wörtern oder Konzepten, die häufig im 
gleichen Satz oder im gleichen Dokument auftreten, wird ein Zusammenhang un- 
terstellt, sodass aus gemeinsamer Okkurrenz ein Kookkurrenznetzwerk entsteht 
(siehe Abschn. 9.1). Egal ob Kookkurrenz, Kooperation oder Affiliation, in allen 
Fällen werden aus den Verbindungen zwischen zwei Sorten von Knoten die Verbin- 
dungen zwischen einer Sorte von Knoten abgeleitet. Die Grundidee lässt sich viel- 
fältig erweitern, indem man beliebige gemeinsame Eigenschaften als Verbindung 
begreift, etwa was Personen mögen und nicht mögen oder wo sie sich aufhalten 
und welche Orte sie meiden. Auf dieser Grundidee bauen Empfehlungssysteme 
von Onlineplattformen auf. 

Durch die Verbindungen zwischen den Knoten entstehen innerhalb eines Netz- 
werks untereinander stark oder weniger stark verbundene Teilnetze, wobei sich 
mehrere Arten von Teilnetzwerken unterscheiden lassen: 


e Der einfachste Fall besteht aus einer Dyade, das heißt, man betrachtet genau 
zwei Knoten und fragt danach, ob sie miteinander verbunden sind oder nicht. 

e Das Konzept lässt sich auf drei Knoten erweitern, dann spricht man von Tria- 
den — wie in der Abb. 10.1 zwischen G, H und I oder auch zwischen B, C und 
D. Auf dieser Grundlage lässt sich zum Beispiel untersuchen, inwiefern Freunde 
von Freunden auch Freunde sind. 

e Wird die Bedingung, dass alle mit allen verbunden sein müssen, etwas gelo- 
ckert, lassen sich über mehrere Ecken verbundene Teilnetze identifizieren. Je 
nach Verfahren spricht man von Cliquen, Cores, Communities oder Kompo- 
nenten (zur Differenzierung siehe Jansen 2003, S. 193 ff.). 

e Interessiert man sich nur für die Knoten und Beziehungen rund um einen ein- 
zelnen Knoten, dann spricht man von dem Egonetzwerk des Knotens. Ein Ego- 
netzwerk erster Ordnung umfasst lediglich die direkt verbundenen Knoten, in 
zweiter bzw. höherer Ordnung werden auch die nachfolgenden Beziehungen zu 
weiteren Knoten erfasst. 


10.1.2 Maße zur Analyse von (Teil-)Netzwerken 


Um die Strukturen zwischen mehreren oder allen Knoten zu untersuchen und zu 
beschreiben, haben sich in der Netzwerkanalyse einige Maße etabliert (umfassend 
siehe Wasserman und Faust 1994): 
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e Größe: Zunächst kann man auszählen, wie viele Knoten ein Netzwerk umfasst. 
Das Gesamtnetzwerk aus Abb. 10.1 hat eine Größe von neun Knoten. 

e Dichte: Über die Dichte wird angegeben, wie viele Beziehungen von allen mög- 
lichen Beziehungen tatsächlich realisiert sind.” Das Beispielnetzwerk weist eine 
Dichte von 0,28 auf, somit sind ein Drittel aller möglichen Beziehungen realisiert. 

e Reziprozität: Weist ein Netzwerk gerichtete Beziehungen auf, kann über die 
Reziprozität angegeben werden, wie viele der Beziehungen ein- und wechsel- 
seitig sind. 

e Entfernung: Wie viele Kanten zwischen zwei Knoten liegen, wird über die 
Pfadlänge angegeben. Um im Beispielnetzwerk von F zu E zu gelangen, benö- 
tigt man drei Schritte, von F zu B dagegen nur einen. Wie groß die Distanzen im 
gesamten Netzwerk sind, wird über die durchschnittliche Pfadlänge zwischen 
allen Knoten errechnet.” 

e Komponenten: Die Anzahl der einzelnen Komponenten in einem Netzwerk 
zeigt, wie viele Teilnetzwerke untereinander in keiner Beziehung stehen. Im 
Beispielnetzwerk aus Abb. 10.1 finden sich zwei Komponenten (einmal die 
Knoten A bis F, dann die Knoten G bis I). 


Ein wichtiges Konzept, um Netzwerke zu analysieren, ist die Zentralität. Zentra- 
litätsmaße können zum einen für Netzwerke als Ganzes berechnet werden, um zu 
betrachten, wie stark alle Knoten von einigen wenigen Knoten abhängen. Netz- 
werke sind also nicht zwangsläufig flach, auch Hierarchien, Ketten oder Gitter las- 
sen sich als Netzwerk darstellen. Hierarchische Beziehungen zwischen über- und 
untergeordneten Begriffen treten beispielsweise in semantischen Netzwerken auf. 
Zum anderen können Zentralitätsmaße auch für einzelne Knoten ermittelt werden, 
um Knoten in Schlüsselpositionen zu finden. Demnach ergeben sich die Eigen- 
schaften von Akteuren und Konzepten aus der Netzwerkstruktur. 

Um die Zentralität eines Knotens zu bestimmen, haben sich unterschiedliche 
Verfahren etabliert. Bevor Sie weiterlesen: Betrachten Sie einmal das Beispielnetz- 
werk (Abb. 10.1) und überlegen Sie, welchen Knoten Sie besonders wichtig finden 
und weshalb! 


Anzahl Kanten 
Anzahl Knoten x (Anzahl Knoten — 1) i 


? Berechnet wird sie für gerichtete Netzwerke durch 


Für ungerichtete Netzwerke wird die Anzahl der Kanten doppelt gezählt. 


®Dabei werden die jeweils kürzesten Pfade (sogenannte Geodäten, engl. geodesics) be- 
trachtet. 
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Typische Zentralitätsmaße sind der Degree, die Betweenness und die Closeness:* 


e Auf Knotenebene wird beim Degree die Anzahl der Beziehungen eines Knotens, 
etwa die Freunde im Freundschaftsnetzwerk, ausgezählt. Ein Knoten mit einem 
hohen Degree kann als ein populärer oder prestigeträchtiger Knoten interpretiert 
werden. So hat beispielsweise der Knoten B den höchsten Degree von 4, er hat 
also die meisten Beziehungen. Im Gegensatz dazu, kennen E und F je eine Per- 
son aus dem abgebildeten Netzwerk und haben damit einen Degree von 1. 

e Ein Knoten kann auch dadurch eine zentrale Rolle spielen, dass er verschiedene 
Teilnetze verbindet, sodass viele Wege innerhalb des Netzwerks über ihn lau- 
fen. Er hat dann eine vermittelnde oder überbrückende Position. Möchte bei- 
spielsweise Knoten B den Knoten E kennenlernen, so könnte C die beiden mit- 
einander bekannt machen. Ein solcher Knoten hat eine hohe Betweenness, 
ohne dass damit zwangsläufig ein hoher Degree einhergehen muss. Die Bet- 
weenness eines Knotens berechnet sich aus der Anzahl der kürzesten Pfade zwi- 
schen allen anderen Knoten, die über diesen Knoten laufen. 

e Knoten sind auch dann zentral, wenn sie im Durchschnitt schnell alle anderen 
Knoten im Netzwerk erreichen. Diese indirekte Einbindung in das gesamte 
Netzwerk wird über die Closeness bestimmt. Sie berechnet sich entsprechend 
aus der durchschnittlichen Entfernung zu allen anderen Knoten. Im Freund- 
schaftsnetzwerk können ebensolche Knoten schnell Informationen aus dem ge- 
samten Netzwerk verbreiten oder erhalten. 


Insgesamt können also unterschiedliche Analyseeinheiten in der Netzwerkanalyse 
herangezogen werden: die Knoten und Kanten jeweils für sich genommen, die 
verschiedenen Arten von Teilnetzwerken oder das Gesamtnetzwerk. Weil die Ei- 
genschaften von Gesamtnetzwerken von den einzelnen Teilen abhängen und umge- 
kehrt, spricht man von Emergenz: Das Ganze ist mehr als die Summe seiner Teile. 
Die Dichte des gesamten Netzwerks hängt von den Beziehungen zwischen einzel- 
nen Akteuren ab, ohne dass die Akteure selbst schon eine Dichte hätten. 


10.1.3 Hypothesentests und Netzwerkmodellierung 


Das bislang vorgestellte Vokabular ist vor allem zur Beschreibung von Netzwerken 
geeignet. Netzwerkanalysen werden auch durchgeführt, um Zusammenhänge und 
Unterschiede zu erklären. So könnte man danach fragen, inwiefern das gleiche Ge- 


*Für eine detaillierte Einführung in Zentralitätsmaße auf Knoten- und Netzwerkebene siehe 
beispielsweise Jansen (2003) und Freeman (1978). 
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schlecht oder gemeinsame Interessen verschiedener Personen dazu beitragen, dass 
sich Freundschaften ausbilden. Diese Fragestellungen lassen sich mit der klassischen 
Statistik nur eingeschränkt beantworten — zum einen, weil die Beobachtungen nicht 
unabhängig voneinander sind (eine grundlegende Annahme vieler statistischer Ver- 
fahren), und zum anderen, weil ein soziales Netzwerk immer schon typische Struk- 
turmerkmale aufweist. So zeichnen sich Freundschaftsnetzwerke üblicherweise 
durch einen gewissen Anteil reziproker Beziehungen und lokaler Cluster aus. Auch 
ist in der Regel erwartbar, auf schiefe Degree-Verteilungen zu stoßen, das heißt, ei- 
nige wenige Knoten sind deutlich stärker verbunden als die meisten anderen.’ 

Will man solche Aussagen (inferenz)statistisch überprüfen, so bieten sich Si- 
mulationen anstelle von klassischen Wahrscheinlichkeitsberechnungen an. Aus 
dem Vergleich von simulierten Welten mit der empirischen Welt lässt sich dann 
abschätzen, wo in der empirischen Welt überzufällige Zusammenhänge bestehen.‘ 
Um solche Zusammenhänge zwischen Eigenschaften von Knoten und Kanten un- 
ter Berücksichtigung struktureller Eigenschaften zu untersuchen, eignen sich bei- 
spielsweise Exponential Random Graph Models (Robins et al. 2007) oder Agen- 
tenbasierte Simulationen (siehe Kap. 11). Die Herausforderung besteht also darin, 
das Erwartbare vom Besonderen zu trennen. 


10.1.4 Die Erhebung von Netzwerkdaten 


Bei der Erhebung von Netzwerkdaten besteht das Ziel darin, Knoten und Kanten 
systematisch zu erfassen und in eine auswertbare Form zu bringen. Dabei sollte 
man sich vor Augen führen, dass Netzwerke nicht einfach vorliegen, sondern Be- 
ziehungen gezielt für die Datenanalyse konstruiert werden. Dafür können unter- 
schiedliche Datenquellen herangezogen werden (Kap. 2). Prozessgenerierte Daten 
fallen unabhängig von wissenschaftlichen Projekten etwa bei der Nutzung von On- 
lineplattformen an und können teilweise über Webscraping oder Programmier- 
schnittstellen (APIs) erhoben werden (siehe Kap. 7). Auch Datenbanken wie Wi- 
kiData stellen eine Fundgrube für Netzwerkanalysen bereit, da die Daten bereits in 
einer relationalen Struktur erfasst werden (siehe Abschn. 3.7). Netzwerkanalyti- 
sche Daten lassen sich zudem auch gezielt im Forschungsprozess über eigene Be- 
fragungen generieren. Sekundärdatenanalysen verwenden schließlich Daten, die in 
vorherigen Projekten erfasst wurden. 


>Daraus ergibt sich ein interessanter Effekt: im Durchschnitt haben die eigenen Freund:in- 
nen mehr Freund:innen als man selbst (Feld 1991). 


6 Für eine Einführung in die Welt der Zufallsnetzwerke siehe Barabäsi (2016). 
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Einige Konstrukte, die Gegenstand sozial- oder geisteswissenschaftlicher Frage- 
stellungen sind, verweisen unmittelbar auf Beziehungen, die direkt erhoben werden 
können. Solche expliziten Beziehungen werden zum Beispiel sichtbar, wenn sich 
Nutzer:innen auf sozialen Medien gegenseitig folgen oder liken. Darüber hinaus 
können Beziehungen auch indirekt abgeleitet werden. Wenn Nutzer:innen unter 
dem gleichen Post kommentieren, bauen sie nicht zwangsläufig bewusst eine Bezie- 
hung zueinander auf — allerdings kann ein Zusammenhang zwischen den Akteuren 
über das Kokommentieren konstruiert werden. Ebenso kann man bei gemeinsam 
auftretenden Wörtern in einem Text unterstellen, dass die räumliche Nähe auch eine 
semantische Nähe widerspiegelt, sodass sich daraus eine einfache Form semanti- 
scher Netzwerke konstruieren lässt (siehe Kap. 9). In der Netzwerkanalyse unter- 
scheidet man deshalb zwischen einer realistischen und einer nominalistischen Pers- 
pektive. Erstere unterstellt, dass die untersuchten Netzwerke tatsächlich auch in der 
Wirklichkeit vorzufinden sind, während letztere von einem auf die jeweilige Frage- 
stellung zugeschnittenen Konstruktionsprozess ausgeht (Laumann et al. 1983). 

Je nach Umfang wird zwischen verschiedenen Erhebungsverfahren unterschie- 
den (siehe auch Jansen 2003, Kap. 4). Bei einer Vollerhebung werden alle Knoten 
und Beziehungen eines Netzwerks erfasst. Man könnte beispielsweise eine Liste 
aller Mitglieder einer Universität erstellen und dann jede einzelne Person dazu be- 
fragen, welche anderen Personen sie kennt. Häufig stößt dieses Verfahren an prakti- 
sche Grenzen. Eine Liste aller Webseiten gibt es beispielsweise nicht. Deshalb wer- 
den Sampling-Verfahren angewendet, um gezielt Netzwerkausschnitte zu erheben. 
Eine gängige Variante ist das Erheben von egozentrierten Netzwerken. Man be- 
ginnt bei einer Person oder Webseite und folgt dann schrittweise den Beziehungen. 
Je nachdem, wie viele Schritte man vom Ausgangspunkt weggeht, spricht man von 
Egonetzwerken der ersten, zweiten oder n-ten Ordnung. Genau dieses Verfahren 
wird von Suchmaschinen bzw. von den Webcrawlern der Suchmaschinen verwen- 
det, um nach und nach alle Webseiten aufzufinden und in einer Datenbank abzuspei- 
chern. Ego-Netzwerke sammeln in höheren Ordnungen oft schneeballmäßig eine 
große Zahl von Knoten, wodurch man bei der Verarbeitung dieser Daten schnell an 
Limitationen der verfügbaren Ressourcen stößt. Deswegen müssen häufig weitere 
Sampling-Entscheidungen getroffen werden, um möglichst systematisch und den- 
noch repräsentative oder zumindest informative Netzwerke zu erheben - beispiels- 
weise wird für jeden Erhebungsschritt nur ein bestimmter Anteil von Knoten oder 
Kanten ausgewählt, der dann im nächsten Schritt weiterverfolgt wird (siehe zum 
Beispiel Leskovec und Faloutsos 2006 oder Salamanos et al. 2017). 

Netzwerkdaten können durch Erhebung und Aufbereitung in unterschiedlichen 
Formen abgespeichert werden. Netzwerke lassen sich zunächst als Matrizen erfas- 
sen, bei denen Zeilen und Spalten die Knoten sind und eine Beziehung zwischen 
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Netzwerk als Matrix Netzwerke als Kantenliste 
A|B|C|D/E/F|G| HI Quelle | Ziel 

A}O;/1/0}]1])]0];/0/0/01]0 A B 
Bii/;oO;1}]1/0}1}0)]0)]0 A D 
C|0/1/0]/]1/1[/0/)0|0]0 B C 
D/1/1/1/0/0|0/010]/0 B D 
E/010/1/0/0|0/010[/0 B F 
F/0/11/0/0/0|0/010]/0 C D 
G/|010,0/|0/0[|0/0|1/|1 C E 
H 0/0/0/0/010)1]/0|1 G H 
1|I0/0/|0]0/0/0/)1|,1]0 G I 

H I 


Abb. 10.2 Darstellung des Netzwerks aus Abb. 10.1 als Matrix und als Kantenliste. (Quelle: 
eigene Darstellung) 


den Knoten durch 0 oder 1 in den Zellen markiert wird (siehe Abschn. 3.1; 
Abb. 10.2).’ Die Diagonale der Matrix kann dazu verwendet werden, Beziehungen 
der Knoten zu sich selbst festzuhalten.* Bei ungerichteten Netzwerken, wie im 
Beispiel, sind die beiden Hälften oberhalb und unterhalb der Diagonalen identisch. 
Es macht dann also keinen Unterschied, ob man von der Zeile ausgehend die Spalte 
sucht oder umgekehrt. Bei gerichteten Netzwerken ist jeweils die eine Richtung 
(ausgehende Beziehungen) und die andere Richtung (eingehende Beziehungen) 
auf der unteren bzw. oberen Hälfte erfasst. 

Soziale und semantische Netzwerke bestehen oft aus sehr vielen Knoten, wobei 
nur ein kleiner Anteil der möglichen Beziehungen realisiert ist. Matrizen enthalten 
deshalb häufig viele Nullen, sie sind nur spärlich besetzt (engl. sparse), was zu ei- 
ner Platzverschwendung beim Abspeichern führt. Alternativ lassen sich Netzwerke 


"Diese Form der Matrix wird auch als Adjazenzmatrix (engl. adjacency matrix) bezeichnet. 
Netzwerke können alternativ als Distanzmatrizen dargestellt werden, in denen die Zeilen und 
Spalten den Knoten entsprechen und in den Zellen die Pfadlängen — die Anzahl der Kanten, 
die zwischen zwei Knoten liegen — enthalten sind. 

®Die Diagonale wird mitunter auch dazu verwendet, die Gesamtzahl der Beziehungen eines 
Knotens festzuhalten (Degree). 
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so erfassen, dass nur die bestehenden Beziehungen aufgelistet werden (Abb. 10.2). 
In der ersten Spalte einer solchen Kantenliste (engl. adjacency list oder edge list) 
wird die Quelle und in einer zweiten Spalte das Ziel aufgeführt. Die Stärke der 
Beziehung kann bei Bedarf in einer weiteren Spalte angegeben werden. Zusätzlich 
zur Liste aller Kanten wird gegebenenfalls eine Knotenliste erstellt, um weitere 
Eigenschaften zu erfassen, zum Beispiel neben einer Nummer für jeden Knoten 
auch eine Bezeichnung oder eine Kategorie. 

Matrizen eignen sich gut, um bimodale Kookkurrenz- oder Affliationsnetz- 
werke (siehe oben) in unimodale Netzwerke umzuformen — etwa wenn das Auftre- 
ten von Wörtern in verschiedenen Texten in ein Netzwerk zwischen Wörtern umge- 
wandelt oder aus dem gemeinsamen Besuch von Veranstaltungen eine soziale 
Beziehung abgeleitet werden soll. Stehen die Zeilen für Personen und die Spalten 
für Veranstaltungen bzw. die Zeilen für Dokumente und die Spalten für Wörter, 
kann man dies durch Matrixmultiplikation in ein unimodales Netzwerk umformen, 
in welchem es nur noch Personen oder Veranstaltungen bzw. Dokumente oder 
Wörter gibt.’ Auch aus bimodalen Kantenlisten lassen sich unimodale Netzwerke 
erstellen. Wenn etwa Personen immer in der ersten Spalte aufgeführt sind und Ver- 
anstaltungen immer in der zweiten, zählt man aus, wie häufig bei immer zwei Per- 
sonen die gleiche Veranstaltung angeführt ist. Diese Anzahl kann dann als Gewicht 
der Beziehung abgespeichert werden.'° 


10.1.5 Die Visualisierung von Netzwerken 


Auch wenn soziale, semantische oder raumzeitliche Beziehungen mit unseren Sin- 
nen nicht direkt wahrnehmbar sind, werden Netzwerke häufig durch visuelle Dar- 
stellungen erschlossen. Dabei gilt es zu beachten, dass die Visualisierung von 
Netzwerkdaten stets eine konstruierte Darstellung ist, das Bild eines Netzwerks ist 


°Die Matrix wird mit der transponierten (= gedrehten) Matrix multipliziert. Je nachdem 
welche Matrix transponiert und ob links- oder rechtsmultipliziert wird, wird das Netzwerk 
zwischen den Zeilen oder zwischen den Spalten erzeugt (siehe Abschn. 4.2.4). 


1 Dabei entsteht zunächst ein ungerichtetes Netzwerk. Dieses lässt sich relativ unkompliziert 
in ein gerichtetes Netzwerk umrechnen, indem gemäß der Definition bedingter Wahrschein- 
lichkeiten die Anzahl gemeinsamen Auftretens an der Anzahl des Auftretens des einen Kno- 
tens standardisiert wird (siehe zum Beispiel van Atteveldt 2008). Die Beziehungen geben 
dann bedingte Wahrscheinlichkeiten an und lassen sich teilweise leichter interpretieren als 
absolute Häufigkeiten (siehe Kap. 9). 
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Abb. 10.3 Unterschiedliche Darstellungen des Beispielnetzwerks. Die Grafiken wurden 
mit ggplot2 und ggraph in R erstellt (® Repositorium). Die Farben entsprechen dem Degree 
des jeweiligen Knotens: Knoten mit geringem Degree von null oder eins sind grün, diejeni- 
gen mit mittlerem Degree von zwei blau und Knoten mit hohem Degrees von drei oder mehr 
sind rot eingefärbt. (Quelle: eigene Darstellung) 


nicht das Netzwerk selbst. Je nachdem, welche Aspekte eines Netzwerks betont 
werden sollen, eignen sich unterschiedliche bildliche Darstellungen (Abb. 10.3): 


e Eine vordefinierte Anordnung ergibt sich aus Matrixdarstellungen. In einer vi- 
sualisierten Adjazenzmatrix kann man erkennen, ob eine Beziehung vorhanden 
ist oder nicht. Wenn die Kanten ein Gewicht haben, können die Schnittpunkte 
aus Zeilen und Spalten auch eingefärbt werden, wodurch eine Heatmap entsteht. 

e Graphenorientierte Darstellungen bilden alle Knoten ab, wobei die Kanten 
zwischen den Knoten als Linien visualisiert werden. Wichtig für die Interpreta- 
tion ist die räumliche Anordnung (engl. layout) von Kanten und Knoten. Die 


402 10 Netzwerkanalyse 


Knoten werden im einfachsten Fall in einer Reihe oder einem Kreis angeordnet 
und durch Linien oder Bögen verbunden. Hierarchische Netzwerke lassen sich 
auch gut als Bäume abbilden, um schnell über- und untergeordnete Knoten sicht- 
bar zu machen. Sind die Netzwerke weniger klar geordnet, wird die Anordnung 
meist durch die Simulation physikalischer Kräfte zwischen den Knoten be- 
stimmt. Eine Variante solcher force-directed Layouts stellen Spring-Embedder- 
Layouts dar (siehe zum Beispiel Fruchterman und Reingold 1991): Die Knoten 
stoßen sich durch simulierte elektrische Ladungen ab (repulsion), während sie 
gleichzeitig durch simulierte Zugfedern zusammengehalten werden (attraction). 
Lässt man eine entsprechende Simulation eine Zeitlang laufen, ordnen sich stark 
verbundene Knoten in unmittelbarer Nähe zueinander an. Solche Darstellungen 
sind in Programmen wie Gephi (Bastian et al. 2009) interaktiv implementiert, 
wodurch man in ein Netzwerk eintauchen und es explorieren kann. Nachteil sol- 
cher Abbildungen ist allerdings, dass Netzwerke schnell unübersichtlich werden, 
wenn sie groß sind. Sie sehen dann aus wie Hair Balls, aus denen man nur we- 
nige nützliche Informationen herauslesen kann. 

e Um strukturelle Eigenschaften großer Netzwerke übersichtlich zusammenzu- 
fassen, werden Hive Plots eingesetzt (Krzywinski et al. 2012). Auf den Achsen 
sind Werte wie der Degree abgebildet. Über die bestehenden Verbindungen zwi- 
schen den Achsen werden Eigenschaften des Netzwerks sichtbar. So kann bei- 
spielsweise schnell erkannt werden, welche Knoten degree-übergreifende Be- 
ziehungen aufbauen oder ob vielmehr eine Präferenz für andere Knoten mit 
einem ähnlichen Degree besteht (Assortativität bzw. Homophilie, siehe zum 
Beispiel Newman 2003). 


10.2 Erhebung, Analyse und Visualisierung von 
Netzwerken 


Im Folgenden wird ein Beispiel zur Erhebung, Analyse und Visualisierung von 
Netzwerkdaten durchgespielt. Das Verfolgen und Abspeichern von Beziehungen 
nennt sich Crawling. Ausgehend von einem YouTube-Video werden weitere, von 
YouTube empfohlene Videos erfasst. Es werden also direkt die auf YouTube durch 
das Empfehlungssystem implementierten Beziehungen verfolgt und als Netzwerk 
aufbereitet. Wie solche Empfehlungen zustande kommen, ist teilweise bei Coving- 
ton et al. (2016) sowie Davidson et al. (2010) nachzulesen. 

Das Beispiel demonstriert eine Kombination von Computational Methods, die 
sich auch auf andere Anwendungsfälle übertragen lässt. Für die Datenerhebung 
wird Facepager eingesetzt, um Daten über die API von YouTube zu erheben (siehe 
Abschn. 7.2). Zur Datenaufbereitung kommt die statistische Programmiersprache 
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R zum Einsatz (siehe Abschn. 5.1). Die Visualisierung findet schließlich mit Gephi 
statt, einem Tool für Netzwerkanalyse. 

Für die Netzwerkanalyse findet sich eine Vielzahl nützlicher Werkzeuge, wei- 
tere Softwares sind etwa Neo4j (2022), RSiena (Snijders et al. 2021) oder Cy- 
toscape (Shannon et al. 2003). Wichtig ist nicht so sehr, welches Tool verwendet 
wird — die Programme können, wenn Sie diesen Text lesen, schon längst anders 
aussehen oder sogar eingestellt worden sein —, sondern einen typischen Workflow 
nachzuvollziehen und dabei Anregungen für eigene Analysen zu gewinnen. Eine 
gute Anlaufstelle für weitere Software stellt die in der weiterführenden Literatur 
verlinkte Awesome List (Briatte 2021) dar. 


10.2.1 Datenerhebung über die YouTube-API 


Facepager ist ein Open-Source-Programm, mit dem ohne eigene Programmierung 
Daten über Programmierschnittstellen erhoben werden können. Das Programm ist 
vollständig in Python (siehe Abschn. 5.2) geschrieben und auf GitHub verfügbar." 
Dort finden Sie auch ein Wiki mit kurzen Einführungen in verschiedene APIs (Get- 
ting Started). Die Parameter von APIs ändern sich immer wieder. Wenn Sie diesen 
Text lesen, müssen die folgenden Schritte möglicherweise bereits angepasst wer- 
den. Das Prinzip lässt sich aber auf andere APIs und Parameter übertragen, weitere 
Hinweise finden Sie dazu im ® Repositorium des Buchs. Installieren Sie zunächst 
eine aktuelle Version von Facepager. 


Schritt 1: Startknoten hinzufügen Nach dem Starten von Facepager legen Sie mit 
dem Button NEw DATABASE eine neue Datenbank an. Suchen Sie sich dann ein You- 
Tube-Video als Startpunkt für das Netzwerk aus, zum Beispiel https://www.youtube. 
com/watch?v=4f9yC4ug8ZU. Der letzte Teil der URL, der auf watch ?v= folgt, ist 
die eindeutige ID 4f 9yC4ug8 ZU des Videos. Diese ID fügen Sie in Facepager über 
den Button App Nopes in der Menü-Leiste als Startknoten (engl. seed node) ein. 


Schritt 2: Ahnliche Videos abfragen Um empfohlene Videos abzufragen, kann 
das Preset „Get related videos“ verwendet werden, welches Sie über den Button 
PRESETS in der Kategorie „YouTube“ finden. In der Beschreibung des Presets er- 
halten Sie auch Hinweise zur Verwendung und insbesondere einen Link zur Doku- 
mentation der API bei Google. Für den Moment können Sie das Preset einfach über 
APPLY laden. Dabei werden die Voreinstellungen in das YouTube-Modul unten 
links übertragen (Abb. 10.4). Facepager setzt aus diesen Einstellungen eine URL 
zusammen, ruft diese URL auf und speichert das Ergebnis in einer Datenbank ab. 


!! Siehe Jünger und Keyling (2022; https://github.com/strohne/Facepager). 
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YouTube Twitter Twitter Streaming Facebook Amazon Generic Settings 


Base path |https://www.googleapis.com/youtube/v3 v] Node level 3 r 
Resource \/search viR Select all nodes 
Only empty nodes 
Parameters |maxResults v [50 v — 
: Exclude object types Joffcut 
v | [snippet v 
part (sabe Resume collection 
relatedToVideold v | [<Objed ID> Jir T i z 
type bi [video = Requests per minute 1200 $ 
al = Maximum errors |10 B 
More settings 
Maximum pages |1 F 
Access token —esssssnsnnnenennnnnnnnennnneee Settings Login to Google 
@Fetch Data © 


Abb. 10.4 Einstellungen in Facepager zur Erhebung von ähnlichen Videos. Hinweis: die 
Angabe des Node level auf der rechten Seite startet bei 1 und wird für jede Zone des Netz- 
werks um einen Schritt erhöht. (Quelle: eigene Darstellung) 


Um die YouTube-API nutzen zu können, müssen Sie sich mit einem Google- 
Konto ausweisen. Zusätzlich muss das Konto mit einem eigenen Channel verbun- 
den sein, den Sie ggf. direkt auf YouTube anlegen. Klicken Sie schließlich in Face- 
pager auf den Locin-Button und loggen Sie sich ein. Das Passwort wird dabei nicht 
von Facepager abgefragt, sondern direkt von Google." Facepager erhält anschließend 
ein sogenanntes Access Token, um sich gegenüber Google in Ihrem Namen auszu- 
weisen. Wenn Sie das Feld mit dem Access Token später wieder leeren, ist keine 
weitere Anfrage möglich und Sie müssen sich bei Bedarf neu einloggen. 

Nach dem Einloggen klicken Sie in der Nodes View — dem Bereich, in dem die 
einzelnen Datensätze dargestellt werden — den Startknoten ,,4f9yC4ug8ZU“ an 
und anschließend auf FETCH DATA. Das Ergebnis wird in der Datenansicht einge- 
blendet, ggf. müssen Sie den Knoten erst mit dem Dreieck links neben dem Knoten 
oder über EXPAND NODES aufklappen. In der Übersichtstabelle auf der linken Seite 
sind nur ausgewählte Daten angezeigt. Alle für einen Knoten abgefragten Daten, 
wie die Video-ID, das Veröffentlichungsdatum, den Titel oder die Videobeschrei- 
bung, sehen Sie in der Detailansicht auf der rechten Seite. Welche Spalten in der 
Tabelle erscheinen, wird über das Colum Setup rechts festgelegt. 

Von diesem Egonetzwerk erster Ordnung können Sie nun weitergehen und die 
Videos der Videos abfragen. Sie müssen das nicht manuell für jeden einzelnen Knoten 


12? Das Verfahren nennt sich Open Authorization (OAuth 2.0) und ist unter anderem im Wiki 
von Facepager (Jünger 2020) erläutert. 
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“Expand nodes Collapse nodes Find nodes [Copy Node(s) to Clipboard Transf 


Object ID Object Type snippet.title 

data Part 1. Using Facepager to extract Faceboo... 
1Nt1gJu-hzU data How to download comments from YouTub... 
1Y37RyIFYAU data General Architecture for Text Engineering T... 
~ ZdXamQANZ9E data Webscraping with Facepager | Jakob Jünge... 
Yq_M3PNr73s data Using APIs with Facepager | Jakob Jünger | ... 
4f9yC4ug8ZU data Introduction to Facepager: automatic data ... 
esX7SFtEjHg data Coding in Chicago | «, LoFi Jazz Hip-Hop ... 

X3CKCAR7nEo data Facebook Comments 
SKYOE4Mh504 data | Customized A Hospital & Paid People's M... 


Abb. 10.5 Mit Facepager erhobene Videos. (Quelle: eigene Darstellung) 


durchführen, Facepager unterstützt sie dabei. Wählen Sie wieder den Knoten ,,4f9y- 
C4ug8ZU“ auf der obersten Ebene aus und erhöhen Sie in den Einstellungen das 
Node level (Abb. 10.4, rechts). Um die Videos der Videos abzufragen, stellen Sie das 
Node level auf 2 — da sich die abzufragenden Knoten auf der untergeordneten, zweiten 
Ebene des ersten Knotens befinden. Soll nach der zweiten Erhebung anschließend 
noch das Egonetzwerk der dritten Ordnung erhoben werden, setzen Sie das Node level 
anschließend auf 3 (Abb. 10.5). Sie können diese Schritte so lange wiederholen, wie 
Sie wollen, und die Ebene immer weiter erhöhen, müssen aber zunehmend mehr Zeit 
einplanen. Schon in der dritten Ebene sind im Beispiel über 2000 Knoten enthalten, 
sodass man schnell an die Rate Limits der API gerät (siehe Abschn. 7.2.3)." 


Schritt 3: Daten exportieren und aufbereiten Wenn Sie die Datenerhebung ab- 
geschlossen haben, können Sie die Daten über Export DATA exportieren. Achten 
Sie darauf, dass in den Spalten alle Informationen enthalten sind, die für die Netz- 
werkanalyse und die Interpretation der Daten wichtig sind, wie die Namen der 
Kanäle und der empfohlenen Videos. Achten Sie in den Einstellungen des Export- 
fensters auch darauf, alle Knoten zu exportieren. 


Die exportierte CSV-Datei können Sie zum Beispiel mit Excel öffnen, darin 
finden sich die in Facepager in der Übersicht angezeigten Daten. Zusätzlich ist je- 


13 Da zu dem Startknoten keine weiteren Informationen erhoben wurden, weist er im Export 
nur die ID auf. Um auch Angaben wie den ,,snippet.title“ zu bekommen, fragen Sie vor der 
Erhebung der ähnlichen Videos mit dem YouTube-Preset „Get video statistics“ die Details 
ab. Dadurch entsteht eine weitere Ebene, die Abfrage der ähnlichen Videos würde dann auf 
Node level 3 beginnen. 
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^ id parent_id object_id snippet.title 

1 2 1 4f9yC4ug8ZU Introduction to Facepager: automatic data collection using ... 

2 R 2 d-nxFHYsxNO Microsoft word tutorial |How to Insert Images into Word Do... 
35 2 WrfHQKKowTO Web scraping | Scrape eCommerce Websites Without Coding 

46 2 gy4nUgPBHeM Mining Twitter data for research: Part 1 

5 7 2 b2rUxb3X4ho Part 1. Using Facepager to extract Facebook Page posts and ... 
6 8 2 IV9X2KSUEYE How to create Data Entry Form in Excel - Ms Office? 


Abb. 10.6 Hierarchischer Datensatz als Grundlage eines Netzwerks von ähnlichen Videos. 
Die Beziehungen können durch Abgleich von parent_id und id nachvollzogen werden. 
(Quelle: eigene Darstellung) 


der Datensatz durch eine ID gekennzeichnet. Die Hierarchie zwischen den Daten- 
sätzen ist dadurch gekennzeichnet, dass im Feld ,,parent_id“ die ID der übergeord- 
neten Seite enthalten ist (Abb. 10.6). Das hat bereits Netzwerkcharakter - für die 
weitere Analyse erstellen Sie daraus eine Kanten- und eine Knotenliste. Die Daten 
müssen dazu so umgeformt werden, dass nicht die Beziehungen zwischen 
Datensätzen der Tabelle (von Facepager vergebene IDs), sondern zwischen den 
Videos (Video IDs bzw. Object IDs) abgebildet werden. 

Die Kantenliste und eine Knotenliste lassen sich zum Beispiel mit R erzeugen. 
Im folgenden Beispiel wird davon ausgegangen, dass die Daten in der Datei videos. 
export.csv mit einem Semikolon als Trennzeichen im UTF8-BOM-Format abge- 
speichert wurden (® Repositorium):'* 


library (tidyverse) 
videos <- read_csv2 ("videos.export.csv", na = "None") 


Nach dem Einlesen in R werden zunächst mit filter () die relevanten Daten- 
sätze und über select () die nötigen Spalten ausgewählt. Neben den IDs zur 
Erfassung der Hierarchie werden die ID und der Name des Videos erfasst: "° 


14 BOM steht für Byte Order Mark, siehe Abschn. 3.2. In Facepager lässt sich beim Exportie- 
ren wählen, ob eine BOM ausgegeben werden soll. Eine BOM ist normalerweise entbehr- 
lich, erleichtert aber das Öffnen der Dateien mit Excel. Im Wiki von Facepager sind weitere 
Optionen für die Datenaufbereitung mit R aufgeführt. 

15 Die Datei enthält ggf. mehrere gleichbenannten ID-Spalten (einmal Facepager-IDs und einmal 
YouTube-IDs). In verschiedenen Package-Versionen werden diese durch read_csv () 
unterschiedlich behandelt, sodass Sie das Skript ggf. darauf anpassen müssen. 
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videos <- videos %>% 
filter (object_type == "data") %>% 
select (id, parent id, object _id, snippet.title) 


Daraus lässt sich nun eine Kantenliste gewinnen. Über einen left_ join wird 
an jede Zeile die übergeordnete Zeile angehängt. Anschließend werden die rele- 
vanten Spalten ausgewählt und direkt in der select () -Funktion umbenannt. Ab- 
schließend werden Duplikate über distinct () und unvollständige Zeilen mit- 
tels na.omit () entfernt: 


edges <- videos %>% 
left _join (videos, by = c("parent id" = "id")) %>% 
select (source = object _id.y, 
target = object _id.x) %>% 
distinct () 3>% 
na.omit () 


Dadurch wurde jedem Video (als Ziel der Empfehlung) das übergeordnete Vi- 
deo (als Quelle der Empfehlung) zugeordnet. Die Kantenliste besteht dann nur 
noch aus zwei Spalten mit den IDs der Videos (Abb. 10.7). 

In einer Knotenliste können zusätzlich zu den IDs die Namen der Videos oder 
weitere Merkmale wie der Kanalname festgehalten werden (Abb. 10.8). Da Videos 
mehrfach empfohlen werden können, entstehen bei der Erhebung Duplikate, die 
mit distinct () bereinigt werden sollten. Der Parameter .keep_all sorgt 
dafür, dass die anderen Spalten erhalten bleiben — die Angaben werden dann aus 
dem jeweils ersten Duplikat übernommen: 


nodes <- videos %>% 
select (id = object id, label = snippet.title) %>% 
distinct (id, .keep all = T) 


Um die so aufbereiteten Daten aufzubewahren oder in anderen Programmen 
weiterzuverarbeiten, können sie schließlich wieder als CSV-Dateien abgespei- 
chert werden: 


write _csv2 (edges, "videos.edges.csv", na = "") 
write _csv2 (nodes, "videos.nodes.csv", na = "") 
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source target 


1 4f9yC4ug8ZU  d-nxFHYsxNO 
2 4f9yC4ug8ZU  WrfHQKKowTO 
3 4f9yC4ugdZU  gy4nUgPBHeM 
4 4f9yC4ug8ZU  b2rUxb3X4ho 
5 4f9yC4ug8ZU  IV9X2K8uEYE 


6 4f9yC4ug8ZU  1Nt1gJlu-hzU 


7 4f9yC4ug8ZU  YAxLueEKqmU 


Abb. 10.7 Kantenliste nach der Aufbereitung mit R. (Quelle: eigene Darstellung) 


^ id 

1 4f9yC4ug8ZU 
2 d-nxFHYsxNO 

3 WrfHQKKowT0O 
4 gy4nUgPBHeM 
5 b2rUxb3X4ho 
6 IV9X2KSUEYE 

7 1NtIgJu-hzU 


8 YAxLueEKqmU 


label 

Introduction to Facepager: automatic data collection using ... 

Microsoft word tutorial |How to Insert Images into Word Do... 
Web scraping | Scrape eCommerce Websites Without Coding 

Mining Twitter data for research: Part 1 

Part 1. Using Facepager to extract Facebook Page posts and... 
How to create Data Entry Form in Excel - Ms Office? 

How to download comments from YouTube with Facepager 


How Good Are Your Eyes? Cool and Quick Test 


Abb. 10.8 Auszug aus der Knotenliste nach der Aufbereitung mit R. (Quelle: eigene Dar- 


stellung) 


10.2.2 Statistische Analyse von Netzwerken 


Auf diesem Datensatz können nun Netzwerkanalysen durchgeführt werden. Inner- 
halb von R stehen dafür Packages wie igraph zur Verfügung (Nepusz 2022). Die 
unterschiedlichen Netzwerk-Packages verwenden in der Regel eigene Datenstruk- 
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turen, um die Netzwerke zu verwalten. Als Brücke zwischen igraph und dem Tidy- 
verse (siehe Kap. 5) bietet sich tidygraph an (Pedersen 2022). Mit nur einer Zeile 
lässt sich so aus der Knoten- und Kantenliste ein Netzwerkobjekt erzeugen: 


library (igraph) 
library (tidygraph) 


graph <- tbl_graph(nodes, edges) 


Sobald eine Knotenliste und eine Kantenliste vorliegen, eingelesen und in ein Netz- 
werkobjekt überführt wurden, kann das Netzwerk statistisch analysiert werden. Das 
igraph-Package hält dafür eine Vielzahl an Funktionen für alle Ebenen eines Netzwerks 
bereit (Tab. 10.1). Rufen Sie die Hilfe zum igraph-Package und zu den einzelnen Funk- 
tionen auf, um sich einen Überblick über die Möglichkeiten zu verschaffen. 

Ein weiterer typischer Analyseschritt besteht darin, die zentralen Knoten zu 
bestimmen. Je nach Erkenntnisinteresse werden Zentralitätsmaße wie der Degree, 


Tab. 10.1 Funktionen für die Netzwerkanalyse in R 


Ebene Befehl Erläuterung 

Gesamt- print (graph) Größe des Netzwerks, das heißt 

netzwerk die Anzahl der Knoten und 
Kanten 

Gesamt- count components (graph) Anzahl der Komponenten 

netzwerk 

Gesamt- graph.density (graph) Dichte des Netzwerks (= Anteil 

netzwerk realisierter Beziehungen) 

Gesamt- transitivity (graph) Lokales Clustering im Netzwerk 

netzwerk 

Gesamt- mean distance (graph) Durchschnittliche Pfadlänge 

netzwerk zwischen allen Knoten (= 
Erreichbarkeit) 

Knoten degree distribution (graph) | Verteilung des Degrees der 
Knoten 

Beziehungen | dyad_census (graph) Anzahl einseitiger (engl. 


asymetric) und wechselseitiger 
(engl. mutual) Beziehungen 
Teilnetze triad census (graph) Anzahl der Triaden 
Teilnetze max cliques (graph, min=5) Größtmögliche Cliquen, die aus 
u mindestens fünf Knoten bestehen 


Einige der Kennwerte und Funktionen liegen für mehrere Analyseebenen vor. (Quelle: 
eigene Darstellung) 
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die Betweenness und die Closeness'® verwendet. Mit den folgenden Funktionen 
aus dem tidygraph-Package werden diese Werte berechnet und im Netzwerkobjekt 
abgespeichert: 


graph <- graph %>% 
activate ("nodes") %>% 


mutate (degree = centrality degree ()) %>% 
mutate (betweenness = centrality betweenness()) %>% 


mutate (closeness = centrality closeness () ) 


Die activate () -Funktion legt fest, ob die folgenden Operationen auf den 
Knoten oder den Kanten ausgefiihrt werden. Fiir die Interpretation kann die Knoten- 
liste mit den neu berechneten Werten aus dem Netzwerkobjekt extrahiert werden. 
Dazu werden die Knoten aktiviert und in einen Dataframe (=ein Tibble) tiberfiihrt: 


nodes <- graph %>% 
activate("nodes") %>% 
as_tibble() 


Anschließend lassen sich diese Daten mit typischen Funktionen aus dem Tidy- 
verse exportieren, analysieren oder visualisieren. Geben Sie die Knotenliste bei- 
spielsweise mit der arrange () -Funktion nach den verschiedenen Zentralitäts- 
mafen (absteigend) sortiert aus: 


nodes %>% 
arrange (-degree) 


nodes %>% 
arrange (-betweenness) 


nodes %>% 
arrange (-closeness) 


16 Bei der Berechnung der Closeness kann die Warnung auftreten: closeness centrality 
is not well-defined for disconnected graphs. Dies ist auf unverbundene 
Komponenten zurückzuführen. Da die Closeness die Entfernung eines Knoten zu allen ande- 
ren Knoten ermittelt und diese in unverbundenen Netzwerken unendlich ist, verwendet igraph 
als Alternative die größtmögliche Entfernung im Netzwerk, das heißt die Anzahl aller Kno- 
ten — 1. Bei der Interpretation der Werte ist das zu berücksichtigen. 
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Wenn Sie die Ergebnisse miteinander vergleichen, finden Sie eventuell Videos, 
die weniger prominent sind (geringer Degree), aber dennoch eine Schlüsselposi- 
tion einnehmen und über die Nutzer:innen beim Verfolgen der Empfehlungen von 
einem Thema zu einem anderen gelangen (hohe Betweenness oder Closeness). 


10.2.3 Visualisierung von Netzwerken 


Sobald die Netzwerke in R eingelesen sind, können sie mit einem einfachen Befehl 
visualisiert werden. Bei großen Netzwerken kann man vorher mit filter () die 
Knoten mit einem kleineren Degree aussortieren, um die Grafik überschaubar 
zu halten: 


graph <- filter (graph, degree > 1) 
plot (graph) 


Für schönere Grafiken lohnt sich ein Blick in das Package ggraph (Pedersen 2021). 
Interaktive Grafiken, zum Beispiel für die Einbettung in Webseiten, lassen sich dage- 
gen mit dem Package visNetwork (Almende 2021) erzeugen (® Repositorium). 

Für die Exploration von Netzwerken eignet sich insbesondere das Programm 
Gephi. Um die Daten dort weiterzuverarbeiten, benötigen Sie wie oben beschrie- 
ben jeweils eine CSV-Datei mit der Knotenliste und mit der Kantenliste. Sie kön- 
nen das Netzwerk auch zunächst mit R vorfiltern und eine übersichtlichere Knoten- 
und Kantenliste abspeichern. Bevor die Möglichkeiten zur Visualisierung von 
Netzwerken mit Gephi besprochen werden, ein Wort der Warnung: Stützen Sie 
Interpretationen nicht allein auf Grafiken. Netzwerkbilder helfen dabei, sich abs- 
trakte Zusammenhänge besser vorzustellen. Es gibt jedoch so viele Möglichkeiten, 
dass kaum verbindliche und reproduzierbare Visualisierungen herstellbar sind. 
Versuchen Sie im Zweifelsfall, die Exploration der Bilder mit anderen Verfahren zu 
validieren. Die Visualisierung können Sie dazu nutzen, in der Analyse herausgear- 
beitete Erkenntnisse ansprechend darzustellen. Insbesondere die statistische 
Analyse liefert gut replizierbare Kennzahlen, mit denen die Eigenschaften eines 
Netzwerks auf den Punkt gebracht werden. 


Schritt 1: Daten einlesen Gephi ist ein Programm, das für die Darstellung und 
Analyse umfangreicher Netzwerkdaten entwickelt wird. Laden Sie es von der Pro- 
jektseite herunter und installieren Sie es auf Ihrem Computer.” Gephi ist in der 
Programmiersprache Java geschrieben, deshalb benötigen Sie, falls auf Ihrem 


17 Siehe Bastian et al. (2009; https://gephi.org/users/download/). 
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Computer noch nicht vorhanden, die Java-Laufzeitumgebung, achten Sie darauf 
die 64Bit-Version herunterzuladen.'* Beim Start von Gephi werden Sie aufgefor- 
dert, ein Projekt zu öffnen oder ein neues anzulegen. Legen Sie zunächst ein neues 
Projekt an. 


In Gephi lassen sich drei Bereiche unterscheiden, die über die Schaltflächen am 
oberen Fensterrand umgeschaltet werden:'? 


1. Im Overview werden die Optionen für die Visualisierung festgelegt (Farbe, 
Größe, Layout) und das Netzwerk dargestellt. Es können Daten gefiltert und 
Funktionen zur Berechnung von Kenndaten aufgerufen werden (Abb. 10.9). 


= = j 


Edges: @41 
Directed Graph 


ls Window Help 


© Data Laboratory. = Prevew 


Appearance X =|| Gach x 


EO A TG mars © 


Filters | Statistics x = 


Farben und . i k F 2 en! ae a 
Größe s . i ey fee - 


Filter und Pr 
Statistiken Run 


Werkzeuge, z. B. Netzwerk 
zentrieren 


kstering Coetficent Run 


ForceAtias 2 a 
A 
a 


7 Presets... Reset ? -|T s [| A- A- anaoad, 32 1 [E e 


Abb. 10.9 Gephi im Überblick. (Quelle: eigene Darstellung) 


18 Zum Download siehe Oracle (2022a; https://www.java.com/de/download/). 


Für die Beispiele wird angenommen, dass die Benutzeroberfläche englischsprachig ist, 
stellen Sie die Sprache ggf. über den Menüpunkt TooLs > LANGUAGE auf Englisch um. 
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2. Im DATA LABORATORY werden die Kanten- und die Knotenliste aufgeführt. 
Hier lassen sich Daten importieren, filtern und bearbeiten. 
3. Im Prevıew-Fenster werden druckfähige Grafiken erstellt. 


Wechseln Sie in den Bereich DATA LABORATORY und klicken Sie dort in der oberen 
Leiste auf IMPORT SPREADSHEET. Importieren Sie als erstes die Knotenliste und 
dann auf die gleiche Weise die Kantenliste. Achten Sie darauf, dass die Einstellung 
Import As jeweils auf „Nodes table“ bzw. auf „Edges table“ steht und hangeln Sie 
sich durch die Dialoge. Wichtig ist, dass Sie alle Daten in den gleichen Arbeitsbe- 
reich importieren. Sie müssen dazu unbedingt die Option APPEND TO EXISTING 
WORKSPACE auswählen (Abb. 10.10). 

Für Gephi müssen in den importierten Dateien einige Konventionen eingehal- 
ten werden: 


e Inder Knotenliste muss es für jeden Knoten in der Spalte „id“ eine eindeutige 
Kennung geben. Diese Kennung muss in der Kantenliste in den Spalten „source“ 
und „target“ zur Kennzeichnung der Beziehungen verwendet werden. 


Import report x 


Source: Stream ImporterSpreadsheetCSV 


Issues Report 


No issue Found during import 


Graph Type: Mixed v More options... 
# of Nodes: 1752 O New workspace 
# of Edges: 0 


Dynamic Graph: no 
Dynamic Attributes: no 
Multi Graph: no 


Cancel 


Abb. 10.10 Dialogfenster zum Import von Daten in Gephi. (Quelle: eigene Darstellung) 
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« Es sollten möglichst keine Knoten und keine Kanten doppelt vorkommen. Die 
Stärke von Beziehungen kann stattdessen numerisch über die Spalte „weight“ 
angegeben werden. Die Bezeichnung der Knoten wird in der Spalte „label“ 
abgelegt. 

e Es können zusätzliche Spalten importiert werden, um zum Beispiel Knoten 
oder Kanten nach weiteren Merkmalen zu filtern oder grafisch unterschiedlich 
darzustellen. 


Wenn Sie mit den oben erstellten Dateien videos.nodes.csv und videos.edges.csv 
arbeiten, dann können Sie die Voreinstellungen belassen. 


Schritt 2: Die Knoten anordnen Zu Beginn sind die Knoten des Netzwerks zu- 
fällig verteilt. Je nach Zielstellung muss man sich zunächst für ein Layout entschei- 
den.” Folgende Schritte führen zu einer Darstellung, in der a) miteinander verbun- 
dene Knoten dichter beieinander sind als andere (force-directed layout), b) die 
Größe der Knoten durch die Anzahl der Beziehungen (degree) bestimmt wird und c) 
untereinander stark verbundene Bereiche durch eine gemeinsame Farbe gekenn- 
zeichnet werden (communities). 


Wechseln Sie als Erstes in den Bereich OVERVIEW und wählen Sie im Abschnitt 
LAYOUT unter CHOOSE A LAYOUT den Algorithmus ForceAtlas 2 aus (Abb. 10.9). 
Dieser Algorithmus verwendet eine für umfangreiche Netzwerkdaten geeignete 
physikalische Simulation: Knoten stoßen sich grundsätzlich voneinander ab, die 
Kanten wirken aber wie Federn und ziehen die Knoten wieder zusammen (Jacomy 
et al. 2014). Klicken Sie auf RUN, um die Simulation zu starten und die Darstellung 
über die Parameter des Algorithmus optimieren: 


e Verändern Sie das Scaling: Mit höheren Werten gehen die Knoten weiter aus- 
einander. 

e Verändern Sie die Gravity: Mit höheren Werten werden die Knoten stärker in 
die Mitte gezogen. Bei unverbundenen Graphen mit mehreren Komponenten 
hält eine starke Gravitation die Teilnetzwerke in der Mitte der Grafik. 

e Wählen Sie abschließend PREVENT OVERLAP, damit die Knoten nicht überei- 
nander liegen. Prüfen Sie, ob die Option LinLoG mope die Darstellung 
verbessert. 


%# Die in Gephi vorhandenen Layout-Möglichkeiten lassen sich über Plugins erweitern. 
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Solange die Simulation läuft, können Sie einzelne Knoten mit der Maus verschie- 
ben und so die wirkenden Kräfte nachvollziehen. Wenn Sie das Netzwerk bei Ihren 
Versuchen aus den Augen verlieren, zentrieren Sie die Ansicht mit dem Lupen- 
Werkzeug (Abb. 10.9). Sobald Sie mit der Anordnung zufrieden sind, klicken Sie 
auf STOP. 


Schritt 3: Größe, Farben und Beschriftungen Mit einer passenden Gestaltung 
der Knoten lassen sich die Eigenschaften des Netzwerks optisch schneller erfassen. 
In Gephi können vor allem Farbe und Größe der Knoten festgelegt werden. Als 
Grundlage können zum einen importierte Daten verwendet werden, zum Beispiel 
Kategorien. Es lassen sich zum anderen netzwerkanalytische Eigenschaften ver- 
wenden, die direkt mit Gephi berechnet werden. Öffnen Sie auf der rechten Seite 
den Abschnitt STATISTICS und berechnen Sie dort Average Degree und Modularity, 
indem Sie jeweils auf Run klicken. Dabei wird für jeden Knoten der Degree be- 
rechnet und eine Zuordnung zu einem Cluster (Modularitätsklasse) vorgenommen. 
Das Ergebnis wird in die Datentabelle übernommen — schauen Sie im Bereich 
DATA LABORATORY nach! 


Um die ermittelten Werte für die Visualisierung zu verwenden, wechseln Sie im 
Bereich OVERVIEW in den Abschnitt APPEARANCE (Abb. 10.11). Wählen Sie dort 
den Punkt Nones, klicken Sie auf die Schaltfläche für die Größe, wählen Sie RAN- 
KING entsprechend dem Degree. Ein Klick auf APPLY setzt die Änderungen um. 
Passen Sie die minimale und maximale Größe so an, dass Sie eine brauchbare 
Darstellung erreichen. 

Im gleichen Bereich lässt sich auch die Farbe der Knoten auf die Modularitäts- 
klasse einstellen (Abb. 10.12). Wählen Sie Nopes und klicken Sie dieses Mal auf 
das Symbol für die Farben. Da die Clusterzugehörigkeit ein kategorisches und kein 
kontinuierliches Merkmal ist, wählen Sie PARTITION und stellen das Merkmal Mo- 
dularity Class ein. Die Auswahl der Farben können Sie mit der Schaltfläche PA- 
LETTE verändern. Standardmäßig stehen nur acht unterschiedliche Farben zur Ver- 
fügung. Sie können die Anzahl erhöhen, indem Sie mit GENERATE eine neue 
Palette erzeugen (und ggf. die Option LIMIT NUMBER OF COLORS ausschalten). Mit 
einem Klick auf APPLY werden die Einstellungen übernommen. 

Mit einem günstigen Layout und etwas Farbe lässt sich zwar die Gesamtstruktur 
eines Netzwerks überblicken. Um in die Details einzutauchen, muss man aber die 
Bedeutung der einzelnen Knoten kennen. Blenden Sie deshalb über die Symbol- 
leiste unter dem Graphen die Label der Knoten ein (Abb. 10.13). Wenn Sie die 
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Abb. 10.11 Klickreihenfolge, um die Größe der Knoten am Degree auszurichten. (Quelle: 
eigene Darstellung) 


Größe auf NODE SIZE einstellen, können Sie die Label mit dem Schieberegler an 
die Größe der Knoten anpassen. 

Nun können Sie mit dem Scrollrad (oder auf dem Touchpad mit zwei Fingern) 
in das Netzwerk hineinzoomen und sich mit der Struktur vertraut machen. Mit der 
rechten Maustaste verschieben Sie den Ausschnitt. Sollten Sie verloren gehen, 
dann klicken Sie links unten in der Symbolleiste auf die Lupe, um die Darstellung 
in die Fenstergröße einzupassen. 


Schritt 4: Mit Teilnetzwerken arbeiten Die Merkmale der Knoten und Kanten 
können nicht nur zur Visualisierung verwendet werden, sondern auch zum Redu- 
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Abb. 10.12 Klickreihenfolge zum Einfärben der Knoten. (Quelle: eigene Darstellung) 


zieren des Netzwerks, das heißt zum Herausarbeiten von Teilnetzen. Schauen Sie 
sich dazu den FILTER-Bereich auf der rechten Seite von Gephi genauer an: 


e Kontinuierliche Eigenschaften wie der Degree von Nodes oder das Gewicht von 
Kanten werden über die unter ATTRIBUTES eingeordnete RANGE eingeschränkt. 
So können Sie das Netzwerk auf besonders stark verbundene Knoten eingrenzen. 

e Kategorische Eigenschaften, zum Beispiel importierte Kategorien, lassen sich 
über ATTRIBUTES und anschließend PARTITION verwenden. 

e Mit den Topologie-Filtern lässt sich die Ansicht auf Egonetzwerke oder unter- 
einander stark verbundene Teilnetze einschränken — probieren Sie zum Beispiel 
k-Cores aus! 


Die Filter werden mit der Maus per Drag & Drop in den QuERIES-Bereich gezo- 
gen. Mehrere Filter können als Subfilter hintereinandergeschaltet werden. Das Fil- 
tern wird mit der entsprechenden Schaltflache aktiviert oder deaktiviert. Die so 
ausgewählten Teilnetze lassen sich schließlich in einen eigenen Arbeitsbereich ko- 
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Abb. 10.13 Anpassen der Label. (Quelle: eigene Darstellung) 


pieren und dort weiterverwenden. Dazu wählen Sie im DATA LABORATORY alle 
Knoten aus, klicken mit der rechten Maustaste auf einen der Knoten und wählen 
den Punkt Copy To aus. Dort können Sie mit der weiteren Analyse und Visualisie- 
rung des Teilnetzwerks fortfahren. 


10.2.4 Nächste Schritte 


Netzwerkanalyse ist nicht einfach ein Methode unter vielen, sondern wendet sich 
der Welt mit einem spezifischen Blick auf die Beziehungen zwischen Akteuren, 
Konzepten und Ereignissen zu. Abstrahiert man von einzelnen Knoten und Kanten 
und betrachtet deren Einbettung in die Netzwerkstrukturen, lassen sich besondere 
Positionen und Eigenschaften herausarbeiten. So werden etwa strukturelle Unter- 
schiede zwischen Vorgesetzen und Mitarbeiter:innen in Unternehmen sichtbar. Da- 
bei kann man nicht nur einzelne Knoten und Kanten gegenüberstellen, sondern 
gesamte Netzwerke miteinander vergleichen — beispielsweise die Empfehlungs- 
welten verschiedener Nutzer:innen. Auch Analysen im Zeitverlauf sind möglich, 
um die Evolution von Beziehungen und Strukturen zu erforschen. 

Hier gibt es viel zu entdecken — die in diesem Kapitel angesprochenen Themen 
bewegen sich vorrangig auf der deskriptiven Ebene und schaffen dadurch eine Vo- 
raussetzung für weitere Explorationen. Die netzwerkanalytische Perspektive lässt 
sich auf nahezu beliebige Daten anwenden. Das gilt auch für Texte, wenn man die 
Kookkurrenz von Wörtern (siehe Kap. 9) als Netzwerke modelliert — versuchen Sie 
selbst einmal, auf diese Weise ein semantisches Netzwerk zu erstellen! 
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Übungsfragen 


1. Was versteht man unter Knoten und Kanten? 

2. Was ist der Unterschied zwischen den Maßen Degree, Betweenness und 
Closeness? 

3. Was sagt eine Dichte von 0,6 über ein Netzwerk aus? 

4. Stellen Sie sich vor, Sie wollen die Figuren aus Ihrem Lieblingsbuch als 
Netzwerk abbilden. Was können Sie als Kanten operationalisieren? Um wel- 
che Attribute könnten Sie Knoten und Kanten erweitern? 

5. Sie haben ein Netzwerk in R konstruiert und wollen nun die zentralsten Kno- 
ten mit der Funktion centrality degree () bestimmen. Weil Sie die 
Funktion noch nicht gut kennen, schlagen Sie in der Hilfe die möglichen Para- 
meter nach. Wann geben Sie dabei den Parameter directed = FALSE an? 

6. Wie werden Netzwerke in einem force-directed Layout angeordnet? 

7. Warum sollten Sie Erkenntnisse nicht allein aus Netzwerkgrafiken ableiten 
und für welche Zwecke eignet sich die Visualisierung von Netzwerken? 
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Zusammenfassung 


Dieses Kapitel führt in Computersimulationen ein. Sie lernen die grundlegende 
Terminologie und verschiedene Arten von Computersimulationen kennen. An- 
hand eines Beispiels erkunden Sie, wie Agent-Based-Modeling umgesetzt wird. 

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie be- 
gleitend zum Kapitel weitere Materialien, auf die wir im Text mit ® verweisen. 


Schlüsselwörter 


Agentenbasierte Simulation - Monte-Carlo-Methode - Traceplot - 
Diffusionsmodelle - Mikro- und Makroebene - R 


Das Ganze ist mehr als die Summe seiner Teile! — diese auf Aristoteles zurück- 
gehende Feststellung gilt nicht nur für die im vorangegangenen Kapitel vorgestellte 
Netzwerkanalyse und verdeutlicht, dass sich viele soziale, geistige und kulturelle 
Phänomene aus dem Zusammenspiel komplexer Prozesse ergeben. Eine Ge- 
schichte besteht nicht einfach aus einer Aneinanderreihung von Ereignissen, viel- 
mehr sind die Ereignisse so aufeinander bezogen, dass sich ein Spannungsbogen 
entwickelt. Auch soziale Systeme sind derart durch das wechselseitige Einwirken 
von Akteuren geprägt, dass sich daraus etwa die Polarisierung eines politischen 
Systems oder der öffentlichen Kommunikation ergeben kann. Will man solche 
Phänomene untersuchen, besteht die Herausforderung darin, Eigenschaften auf der 
Makroebene (Spannung, Polarisierung) durch Ereignisse auf der Mikroebene 
(Handlungen, Kommunikation) eines Systems zu erklären. In der wirklichen Welt 
sind die dahinterliegenden Prozesse in der Regel zu komplex, um sie vollständig zu 
erfassen — in durch Computersimulationen künstlich erzeugten Welten lassen sich 
dagegen gezielt einzelne Faktoren isolieren und untersuchen. Computer- 
simulationen erlauben kontrafaktische Experimente. Damit ist gemeint, dass auch 
Ereignisse untersucht werden können, die in Wirklichkeit noch gar nicht ein- 
getreten sind oder nicht eintreten werden. So ließe sich etwa für eine Videoplatt- 


! Das, was in der Weise zusammengesetzt ist, daß das Ganze Eines ist, ist nicht wie ein 
Haufen, sondern wie eine Silbe. Die Silbe ist aber nicht dasselbe wie ihre Buchstaben, BA 
ist nicht dasselbe wie B und A, ebenso Fleisch nicht dasselbe wie Feuer und Erde [...]“ 
(Aristoteles 2013, S. 205). 
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form simulieren, welche Konsequenzen sich aus dem Ein- oder Abschalten des 
Empfehlungssystems für die Zugriffe auf einzelne Videos ergeben oder wie sich 
eine stärkere oder geringere Mitteilungsbereitschaft von Akteuren in der ge- 
sellschaftlichen Meinungsverteilung niederschlägt. Durch die notwendige Forma- 
lisierung von Prozessen zwingen Simulationsmodelle zu einer intensiven theoreti- 
schen Auseinandersetzung mit den untersuchten Phänomenen, erweitern dadurch 
das Verständnis und erlauben schließlich die Erklärung, Vorhersage und Erkundung 
komplexer Wirklichkeiten (Waldherr et al. 2021, S. 245 ff.). 
Grundlegend werden zwei Arten von Simulationen unterschieden: 


e Agent-Based Modeling: Bei agentenbasierten Simulationen (einführend zum 
Beispiel Gilbert und Troitzsch 2005) wird eine Welt mit Akteuren erzeugt, die 
sich im Zeitverlauf entwickelt. Die Akteure können etwa Menschen sein, die 
Nachrichten lesen und verbreiten. Dazu werden Regeln definiert, nach denen 
sich die Akteure verhalten. In jedem Schritt, das heißt in einer Epoche, führt 
jeder Akteur die festgelegten Aktionen aus. Diese Aktionen können etwa darin 
bestehen, sich zum einen in der Welt zu bewegen und zum anderen immer dann, 
wenn sich zwei Akteure treffen, Nachrichten weiterzugeben. Am Ende lässt 
sich beispielsweise auswerten, wie lange die Diffusion der Nachrichten bei 
unterschiedlichen Regelsätzen gebraucht hat. Zur Interpretation werden unter 
anderem Traceplots verwendet, auf denen Kennwerte wie die prozentuale Ver- 
breitung einer Nachricht im Zeitverlauf dargestellt werden. Agentenbasierte 
Simulationen sind zwar abstrakt, wenn die Akteure aber in einer zwei- 
dimensionalen Welt platziert werden, lassen sie sich anschaulich wie in einem 
Computerspiel visualisieren. 

e Monte-Carlo-Simulationen: Interessiert weniger der Zeitverlauf als das Er- 
gebnis, so lassen sich Probleme als Monte-Carlo-Studien (einführend zum Bei- 
spiel Dunn und Shultis 2012) anlegen, deren Ergebnisse alternativ nur umständ- 
lich durch Formeln berechenbar wären. Ermittelt werden dabei die 
Wahrscheinlichkeiten, mit denen ein bestimmtes Ereignis eintritt. So lässt sich 
etwa bei verschiedenen politischen Wahlverfahren (z. B. Mehrheitswahl, Ver- 
hältniswahl) berechnen, mit welcher Wahrscheinlichkeit ein:e Kandidat:in in 
ein Gremium gewählt wird. Auch Verfahren wie das Topic Modeling (siehe 
Abschn. 8.2) basieren darauf, die wahrscheinlichste Zuordnung eines The- 
mas zu einem Wort oder Text herauszufinden. Zunächst wird ein (hypo- 
thetischer) Datensatz mit den Ausgangsbedingungen definiert, aus dem dann 
viele Zufallsstichproben gezogen werden (engl. resampling). In Bezug auf poli- 
tische Wahlen ergäbe sich die Wahlwahrscheinlichkeit, dass ein Ereignis ein- 
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tritt, dann aus der mittleren Wahrscheinlichkeit über viele Ziehungen hinweg. In 
Bezug auf die Themenstruktur beim Topic Modeling werden ebenfalls eine 
Vielzahl an möglichen Themenzuordnungen gezogen, um dann die insgesamt 
am häufigsten aufgetretene Zuordnung als den wahrscheinlichsten Fall an- 
zunehmen. 


Wenngleich beide Verfahren andere Perspektiven nahelegen, vereinen Simulations- 
studien meist eine regelbasierte und eine wahrscheinlichkeitstheoretische Heran- 
gehensweise. Auch agentenbasierte Simulationen laufen nicht deterministisch ab: 
Welche Richtung ein Akteur auf dem Spielplan einschlägt oder welche Aktion aus- 
geführt wird, hängt wie bei Würfelspielen häufig von vorgegebenen Wahrschein- 
lichkeiten ab. Um den typischen Verlauf zu identifizieren, wird eine Vielzahl 
agentenbasierter Welten mit identischen Startbedingungen simuliert. Effektiv wird 
dadurch eine Stichprobe möglicher Welten gezogen und die Verteilung der resultie- 
renden Kennwerte wird analysiert, um so etwa die Wahrscheinlichkeit für die Dif- 
fusion von Nachrichten zu schätzen. Besonders interessant werden solche Simula- 
tionen in Kombination mit Verfahren wie der Netzwerkanalyse, um die Diffusion 
von Wissen oder auch Viren in einer Gesellschaft zu untersuchen. Letztendlich ist 
es also eine Frage der Schwerpunktsetzung, für welches Verfahren man sich ent- 
scheidet. 

In einem allgemeinen Sinn lassen sich alle zufallsbasierten Methoden als 
Simulationsverfahren begreifen. Auch die Signifikanztests der klassischen Statistik 
basieren darauf, die bei der Datenerhebung beobachteten Werte mit denjenigen 
Welten zu vergleichen, die sich bei zufällig aus einer Stichprobe gezogenen Werten 
ergeben. Dementsprechend finden sich eine Vielzahl an Algorithmen, Packages 
und Tools, mit denen sich Simulationen durchführen lassen. Zum Erlernen agenten- 
basierter Simulationen bietet sich beispielsweise Netlogo* an, das eine grafische 
Oberfläche, Beispielmodelle und eine einfach zu erlernende Programmiersprache 
bereitstellt. Simulationen können durchaus rechenintensiv sein, für die Kombina- 
tion mit High Performance Computing (Abschn. 6.4) eignen sich Toolkits wie 
Repast.’ 

Das Grundprinzip einer Computersimulation lässt sich gut mit Skripten in Py- 
thon (Abschn. 5.2) oder R (Abschn. 5.1) aufbauen und veranschaulichen. Stellen 
Sie sich dazu eine Welt vor, in der sich 100 Agenten zufällig bewegen. Einer dieser 
Agenten verbreitet Desinformationen und diese Informationen werden immer dann 


? Siehe Wilensky (2021; https://ccl.northwestern.edu/netlogo/6.2.1/). 
Siehe Collier und North (2013; https://repast.github.io/). 
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Abb. 11.1 Diffusion in einer künstlichen Welt. Die dunklen Agenten hatten bis zur jeweili- 
gen Epoche mindestens eine Begegnung mit einem anderen dunklen Agenten (® Re- 
positorium). (Quelle: eigene Darstellung) 


weitergegeben, wenn sich zwei Agenten begegnen (Abb. 11.1). Mit diesem sehr 
einfachen Aufbau lässt sich zunächst modellieren, wie lange und in welcher Art 
und Weise ein Diffusionsprozess abläuft. Das Modell kann vielfältig interpretiert 
oder erweitert werden. So kann man dadurch etwa die Verbreitung von Wissen oder 
die Entstehung von Meinungsverteilungen erkunden. Komplexer werden solche 
Modelle, wenn verschiedene Themen in Konkurrenz zueinander stehen, Counter- 
speech eingebaut wird, die Akteure sich nicht zufällig bewegen, sondern 
untereinander vernetzt sind, oder einzelne Agenten in der Rolle von Journalist:in- 
nen eine Multiplikatorfunktion einnehmen. 
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11.1 Eine Welt entsteht 


Eine Simulation lässt sich mit wenigen Schritten in R durchspielen. Legen Sie im 
ersten Schritt die Rahmenbedingungen der Welt fest, etwa die Breite und Höhe des 
Feldes, die Anzahl der Agenten auf diesem Feld und die Anzahl der Epochen, über 
die die Simulation laufen soll: 


world width <- 50 

world height <- 50 
world epochs <- 100 
world agents <- 100 


Auf dieser Grundlage können nun einhundert Agenten zufällig in der Welt ver- 
teilt werden. Dazu erstellen Sie einen Dataframe (siehe Abschn. 5.1) mit den Spal- 
ten no für die von 1 an durchgezählte Nummer des Agenten, x sowie y für die 
Position auf dem Feld und dir für die Richtung zwischen 0 bis 359 Grad, in die 
der Agent blickt. In der Spalte state wird im Beispiel festgehalten, ob ein Agent 
die Nachricht wahrgenommen hat oder nicht. 


agents <- data.frame( 


no = c(l: world agents), 

x = sample (world width, world_agents,replace=T), 
y = sample (world height, world_agents,replace=T), 
dir = sample (360, world _ agents, replace=T) - 1, 


state = FALSE 


Um die Agenten zufällig zu initialisieren, wird im Beispiel die Funktion 
sample () verwendet. Der erste Parameter gibt an, aus welchem Wertebereich 
eine Zahl zufällig gezogen werden soll, der zweite Parameter gibt die Anzahl der 
benötigten Werte an und der Parameter replace=T legt fest, dass auch mehrfach 
die gleiche Zahl gezogen werden darf, Agenten dürfen also die gleiche Position 
oder Ausrichtung haben. 

Computer erzeugen in der Regel keine echten Zufallszahlen, sondern berechnen 
ausgehend von einem sogenannten Seed-Wert weitere Zahlen, die sich wie Zufalls- 
zahlen verhalten. Daraus ergibt sich der Vorteil, dass Zufallsziehungen und auch 
Simulationen reproduzierbar sind — setzen Sie vorab mit set.seed (1852) Ihre 
persönliche Lieblingszahl als Startwert! 
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Nachdem die Welt auf diese Weise erzeugt wurde, wird im Beispiel für den 


ersten Agenten der state auf TRUE gesetzt — dieser einzelne Agent beginnt mit 
der Verbreitung der Information. 


agents$state[l] <- TRUE 


11.2 Die Welt entwickelt sich 


Nun kann sich die Welt entwickeln. Um den Verlauf der Entwicklung festzuhalten, 
legen Sie einen leeren Dataframe history an. In einer Schleife, die die Epochen 
beginnend mit 1 hochzählt, wechseln sich anschließend zwei Vorgänge ab: Nach- 
dem die Agenten ihre Aktionen ausgeführt haben, wird der aktuelle Zustand proto- 
kolliert. Im Beispiel wird im Dataframe agents die Nummer der Epoche ab- 
gelegt, um dann den kompletten Zustand mit rbind () an den bisherigen Verlauf 
anzuhängen. Dadurch wächst der Dataframe history mit jedem Durchgang 
stark an und kann so an die Grenzen des Arbeitsspeichers gelangen — bei umfang- 
reicheren Simulationen würde man sich effizientere Verfahren ausdenken, etwa die 
Daten in einer Datei ablegen oder nur die wichtigsten Kennwerte der aktuellen 
Epoche protokollieren. 


history <- data.frame () 

for (epoch in c(l:world_epochs)) { 
print (epoch) 
# Aktionen ausführen 
agents <- agentsMove (agents) 


agents <- agentsChat (agents) 


# Protokollieren 


agents$epoch <- epoch 
history <- rbind(history, agents) 
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Die eigentlichen Aktionen sind hier in den Funktionen agentsMove () und 
agentsChat () gekapselt. Die erste Funktion nimmt den aktuellen Zustand der 
Welt entgegen, dreht jeden Agenten zufällig um maximal 25 Grad und bewegt ihn in 
die entsprechende Richtung. Wenn Sie die Mathematik dahinter nachvollziehen wol- 
len, dann führen Sie die Zeilen schrittweise aus und verfolgen Sie die Ergebnisse:* 


agentsMove <- function (agents) { 


# Zufällig zwischen -25 und +25 Grad rotieren 
rotate <- sample(c(-25:25),world_ agents, replace=T) 


agentsSdir <- agents$dir + rotate 


agentsSdir <- agents$dir %% 360 


# Horizontal bewegen 

dir x <- round(sin((agents$dir * pi) / 180)) 
agents$x <- agents$x - dir x 

agents$x <- (agents$x - 1) %% world width + 1 


# Vertikal bewegen 

dir y <- round(cos((agents$dir * pi) / 180)) 
agents$y <- agents$y + dir _y 

agents$y <- (agents$y - 1) %% world height + 1 


return (agents) 
Die Funktion gibt den neuen Zustand zurück, damit im nächsten Schritt geprüft 


werden kann, ob ein Informationsaustausch stattfindet. Zunächst werden alle 
Informationsträger herausgefiltert. Anschließend erhalten alle Agenten den Zu- 


*Um aus der Gradzahl eine Änderung in der Horizontalen oder Vertikalen zu berechnen, wird 
diese mit der Funktion (dir x z)/180) in Radiant (rad) umgerechnet. Mittels Sinus und Co- 
sinus wird daraus die Richtungsänderung berechnet. Die mehrfach eingesetzte Modulofunk- 
tion %% sorgt dafür, dass Agenten beim Erreichen des Spielfeldrandes oder bei einer Aus- 
richtung von höher als 359 Grad auf die 0 zurückspringen und so auf der anderen Seite 
wiederkehren, ganz als ob die Welt eine Kugel wäre. 
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stand TRUE, deren x- und y-Position mit mindestens einem Informanten überein- 
stimmen?” 


agentsChat <- function (agents) { 
informants <- agents[agents$state == TRUE, ] 


agents$state <- 
(agents$x %in% informants$x) & 


(agentsSy %in% informantsSy) 


return (agents) 


Der Aufbau des Skripts wäre illustrativer möglich, dann aber weniger effizient, 
indem das Bewegen und Kommunizieren für jeden Agenten einzeln in einer 
Schleife (siehe Abschn. 5.1) durchgeführt würde — probieren Sie ruhig aus, die 
Funktionen entsprechend umzuschreiben oder das Beispiel in Python mit Loops 
nachzubauen! 


11.3 Analyse der Ergebnisse 


Da der Zustand der Welt in jedem Schritt protokolliert wurde, kann nicht nur das 
Resultat, sondern der gesamte Verlauf der Simulation nachvollzogen und visuali- 
siert werden. Geht es um die Frage, wie schnell sich Informationen verbreiten, so 
lässt sich zu jedem Zeitpunkt der Anteil der Informationsträger an allen Agenten 
berechnen und im Zeitverlauf visualisieren (Abb. 11.2). 

Zum Erstellen eines solchen Traceplots wird die Diffusionsrate für jede Epo- 
che berechnet. Der Mittelwert der Variablen state entspricht dem Anteil der 


>Der Ausdruck mit dem %in%-Operator gibt einen Boolean-Vektor zurück, der so lang ist 
wie die Anzahl der Agenten. Die Kombination der beiden Vektoren über & sorgt dafür, dass 
im Ergebnisvektor nur diejenigen Werte TRUE werden, auf die beide Bedingungen zutreffen. 
Das betrifft auch die Informanten selbst, die damit den Zustand TRUE behalten. 
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Abb. 11.2 Veränderung der Diffusion im Zeitverlauf (traceplot). (Quelle: eigene Dar- 
stellung) 


TRUE-Werte, da Boolean-Werte bei der Berechnung automatisch zu 0/1 um- 
kodiert werden: 


trace <- history %>% 
group_by (epoch) %>% 
summarise (diffusion = mean (state)) %>% 
ungroup () 


Das Ergebnis ist ein Dataframe mit den zwei Spalten epoch und diffusion. 
Mit ggplot kann daraus ein Liniendiagramm erstellt werden: 


trace %>% 
ggplot (aes (epoch, diffusion)) + 
geom line(color = "maroon") 


Grundsätzlich bietet es sich an, alle Teilschritte der Simulation in eigene Funk- 
tionen auszulagern. So können leicht verschiedene Varianten der Diffusion aus- 
probiert werden. Da alle Epochen mitgeloggt wurden, können Sie dem Weltwissen 
beim Wachsen zuschauen und den Prozess sogar animieren (® Repositorium). 

Man erkennt an den Skripten schnell, dass es sich um abstrakte Welten han- 
delt. Das Handeln von Menschen wird über die Bearbeitung eines Datensatzes 
simuliert. Diese Art von Modellen findet sich häufiger in der Biologie, etwa um 
genetische Evolution zu analysieren. Evolutionsideen haben darüber hinaus 
auch Eingang in die Sozial- und Geisteswissenschaften gehalten, beispielsweise 
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wenn es um die Verbreitung von Memes (Dawkins 1976) oder Informationen 
geht. Das Ergebnis demonstriert einen Grundmechanismus der Informations- 
verbreitung und vieler anderer sozialer, geistiger, biologischer und physikali- 
scher Prozesse: exponentielles Wachstum. Trotz der extrem geringen Ausgangs- 
wahrscheinlichkeit, dass zwei Agenten aufeinandertreffen und einer dieser 
beiden Agenten zudem noch die Information trägt, verbreitet sich die Informa- 
tion innerhalb von kurzer Zeit in der gesamten Welt. Schaffen Sie es, das ex- 
ponentielle Wachstum mit veränderten Regeln (Vergessen), zusätzlichen Din- 
gen (konkurrierende Mitteilungen, Netzwerkverbindungen) oder weiteren 
Eigenschaften der Agenten (Agilität, Wahrnehmungskapazität) und Mittei- 
lungen (Neuigkeitswert) zu stoppen? 


Übungsfragen 


1. Wozu werden Simulationsmodelle eingesetzt? 

2. Was unterscheidet agentenbasierte Simulationen von Monte-Carlo-Simu- 

lationen? 

Was ist mit den Begriffen „Epoche“ und „Traceplot“ gemeint? 

4. Installieren Sie Netlogo und implementieren Sie damit das im Kapitel vor- 
gestellte Modell (Hinweis: in der Model Library finden Sie ein ähnliches 
Modell in der Kategorie Biology/Evoplution/Genetic Drift/ unter dem Namen 
GenDrift T interact, das Sie entsprechend abwandeln können)! 


p 


Weiterführende Literatur 

Dunn, W. L. & Shultis, J. K. (2012). Exploring Monte Carlo methods. Amsterdam: 
Academic Press. 

Gilbert, G. N. & Troitzsch, K. G. (2005). Simulation for the social scientist 
(2. Aufl.). Maidenhead: Open University Press. 

Snijders, T. A. (1996). Stochastic actor-oriented models for network change. The 
Journal of Mathematical Sociology, 21(1-2), 149-172. https://doi.org/10.108 
0/0022250X.1996.9990178. 


Literatur 


Aristoteles. (2013). Metaphysik. Schriften zur ersten Philosophie. Stuttgart: Reclam. 

Collier, N. & North, M. (2013). Parallel agent-based simulation with Repast for High 
Performance Computing. Simulation, 89(10), 1215-1235. https://doi.org/10.1177/ 
0037549712462620 

Dawkins, R. (1976). The selfish gene. New York: Oxford University Press. 


434 11 Simulationsverfahren 


Dunn, W. L. & Shultis, J. K. (2012). Exploring Monte Carlo methods. Amsterdam: Acade- 
mic Press. 

Gilbert, G. N. & Troitzsch, K. G. (2005). Simulation for the social scientist (2. Aufl.). Mai- 
denhead: Open University Press. 

Waldherr, A., Hilbert, M. & Gonzälez-Bailön, S. (2021). Worlds of Agents: Prospects of 
Agent-Based Modeling for Communication Research. Communication Methods and 
Measures, 15(4), 243-254. https://doi.org/10.1080/19312458.2021.1986478 

Wilensky, U. (2021). NetLogo (Version 6.2.1) [Computer software]: Center for Connected 
Learning and Computer-Based Modeling, Northwestern University, Evanston, IL. https:// 
ccl.northwestern.edu/netlogo/6.2.1/ 


Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 Inter- 
national Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche 
die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Me- 
dium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle 
ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, 
ob Änderungen vorgenommen wurden. 

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen eben- 
falls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts 
anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons 
Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, 
ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jewei- 
ligen Rechteinhabers einzuholen. 


® 


Check for 
updates 


Zusammenfassung 


Computational Methods bringen eine spezielle Perspektive auf die Welt mit 
sich. Sie sind einerseits ganz im Sinne der statistischen Tradition Werkzeuge, 
mit denen umfangreiche Daten erhoben, aufbereitet und analysiert werden, um 
so die Komplexität der Wirklichkeit auf wesentliche Aspekte zu reduzieren. 
Andererseits sind sie Praktiken, die sich zunehmend in den Alltag einweben, 
etwa durch die Etablierung sogenannter künstlicher Intelligenz in Anwendungs- 
bereichen innerhalb und außerhalb der Wissenschaft. Das Kapitel gibt auf Basis 
einer Netzwerkanalyse Hinweise auf mögliche Lektürepfade, mit denen sich 
das vorliegende Buch erschließen lässt. 


Schlüsselwörter 


Computational Methods - Netzwerkanalyse - Lesehinweise 


Computational Methods, wie sie in diesem Buch verstanden werden, bringen eine 
spezielle Perspektive auf die Welt mit sich. Sie sind einerseits ganz im Sinne der 
statistischen Tradition Werkzeuge, mit denen umfangreiche Daten erhoben, aufbe- 
reitet und analysiert werden, um so die Komplexität der Wirklichkeit auf wesentli- 
che Aspekte zu reduzieren. Andererseits sind sie viel mehr als das: Praktiken, die 
sich zunehmend in den Alltag einweben, etwa durch die Etablierung sogenannter 
künstlicher Intelligenz in Anwendungsbereichen innerhalb und außerhalb der Wis- 
senschaft. Dabei treten neue Komplexitäten auf und wer auf Arbeitserleichterung 
durch Automatisierung setzt, wird schnell enttäuscht. Nicht nur die Aufbereitung 
der Daten und das Debugging der Algorithmen sind zeitintensiv, sondern auch die 
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Ergebnisse erfordern eine hermeneutische Auseinandersetzung mit Daten und 
Code (Jünger et al. 2022). Diese Beschäftigung ist allerdings lohnenswert und 
wenn Sie sich dafür entschieden haben, im vorliegenden Buch zu lesen, dann ha- 
ben Sie im besten Fall viel Freude dabei, die Stringenz formaler Verfahren kreativ 
zu nutzen. 

Was liegt aus dieser Perspektive näher, als die Zusammenfassung des Buchs 
automatisiert durch eine Maschine erstellen zu lassen? Die Basistechniken einer 
solchen Zusammenfassung sind in den einzelnen Kapiteln beschrieben. Im ein- 
fachsten Fall wählt man analog zum Extrahieren von Schlüsselwörtern (grundle- 
gend siehe Turney 2000) besonders relevante Sätze aus und streicht alle anderen. 
Ein neu formulierter Text ließe sich daraus erstellen, indem die Sätze in eine se- 
mantische Repräsentation geparsed werden, aus der schließlich mit einem neuron- 
alen Netz die Zusammenfassung generiert wird. Bis ein solches Encoder-Decoder- 
System überzeugende und spannende Ergebnisse produziert hat, ist allerdings viel 
Entwicklungsarbeit nötig, in dieser Zeit hat man das Buch mehrfach durchgelesen. 
Entsprechende Entwicklungsarbeit haben andere bereits geleistet und stellen öf- 
fentliche APIs zur Verfügung. 

Eine etwas andere, komprimierte Sicht auf das Buch ergibt sich, wenn man die 
Verweise zwischen den Kapitel nachverfolgt (Abb. 12.1). Auch für diese Art der 
Zusammenfassung sind die Basistechniken in den einzelnen Kapiteln zu finden. 
Irgendwie hängt alles mit allem zusammen, dennoch lassen sich hieraus instruktive 
Hinweise für die Lektüre gewinnen. Verfolgt man die Pfeile im Netzwerk rück- 
wärts, ergeben sich mögliche Lesepfade. Zunächst wird deutlich, dass die beiden 
vorgestellten Programmiersprachen Python und R zu den zentralen Ausgangs- 
punkten gehören, wobei wir je nach Anwendungsfall unterschiedliche Schwer- 
punkte gesetzt haben. Wollen Sie in die automatisierte Datenerhebung und speziell 
in das Webscraping einsteigen, dann dürfte es hilfreich sein, sich vorher die Grund- 
lagen von Python anzueignen. In Bezug auf die verschiedenen Analyseverfahren, 
insbesondere die Textanalyse, setzen die Kapitel dagegen eher R voraus. Diese 
Einteilung hat sich aus der Arbeit in verschiedenen Forschungsprojekten heraus 
entwickelt, ist aber natürlich nicht zwingend und Sie werden vermutlich bei der 
Wahl der Sprachen eigene Vorlieben haben. 

In jedem Fall empfiehlt es sich, die jeweils verknüpften Grundlagenkapitel 
zurate zu ziehen. Automatisierte Datenerhebung über Webscraping setzt ein Grund- 
verständnis von HTML voraus und auch ein Überblick über Datenformate und 


! Wenn Sie Techniken zur automatischen Texterzeugung ausprobieren wollen, lohnt sich ein 
Blick auf das Projekt GPT-3 (OpenAl 2022; https://openai.com/api/). Die Hintergründe des 
dort verwendeten Modells sind in Radford et al. (2022) beschrieben. 


12 Zusammenfassung 437 


Datenmodelle 


© © Datentypen 


Textformate 


Netzwerkanalyse 
Wortfrequenzanalysen 


APIs 
© Textanalyse Transformations- 
verfahren ® @ Webseiten 
© Machine @ 
abellen- Learning 


Unüberwachte 


Lernverfahren Einleitung 


Datenformate Datenbanken 


Parallelisierung © © 


Entwicklungs- 
umgebungen 


Scaling up @ © 


Datenquellen 


Automatisierte 


© Laufzeitum- 


\ Datenerhebung 
Versionsverwaltung x gebungen © 
@ f @ "mL und xmL 
Programmierung 
Der Werkzeugkoffer 


® Datenbanken 


® Objektdatenformate 


Abb. 12.1 Verweise zwischen den Kapiteln dieses Buchs. Die Kanten entsprechen Verwei- 
sen zwischen Kapiteln, die Kapitelnummer ist in den Knoten dargestellt. Die Hauptkapitel 
sind jeweils mit einer eigenen Farbe gekennzeichnet. Die Größe der Knoten und die Dicke 
der Kanten spiegeln die Anzahl der Verweise (Indegree) wider. (Quelle: eigene Darstellung) 


Selektionsverfahren dürfte eine sinnvolle Ergänzung sein. Da bei der Datenanalyse 
häufig Daten umgeformt werden müssen, etwa vom Wide- in das Long-Format und 
wieder zurück, erscheint die Verknüpfung der R-Einführung mit dem Transforma- 
tionskapitel naheliegend. Einige Themen bauen zudem durch die gewählten Bei- 
spiele aufeinander auf, so empfiehlt sich entsprechend der Kapitelreihenfolge erst 
ein Blick auf überwachte und anschließend auf unüberwachte Lernverfahren. Der 
einleitend vorgestellte Werkzeugkoffer wiederum enthält die für die Organisation 
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von Daten und Skripten unverzichtbare Kommandozeile. Sie werden Ihren eigenen 
Weg finden oder gefunden haben und dabei wünschen wir viel Vergnügen! 
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